INDEX
Negative Logits
affect
-0.07
attack
-0.07
gebra
-0.07
burn
-0.07
lük
-0.07
agréable
-0.07
�
-0.07
ança
-0.07
Adj
-0.06
undercover
-0.06
POSITIVE LOGITS
בלבד
0.11
మాత్రమే
0.10
മാത്രം
0.09
вместо
0.09
’informations
0.09
encamin
0.09
のみ
0.08
plutôt
0.08
invés
0.08
Statt
0.08
Activations Density 0.010%