INDEX
Negative Logits
�
-0.08
�
-0.07
펼
-0.07
billionaire
-0.07
架
-0.07
acob
-0.07
march
-0.07
franç
-0.07
橄
-0.07
ঙ
-0.07
POSITIVE LOGITS
机制
0.09
địa
0.08
wik
0.07
stal
0.07
]int
0.07
STANDARD
0.07
Proto
0.07
地道
0.07
variant
0.07
Blocking
0.07
Activations Density 0.004%