INDEX
Negative Logits
modify
-0.07
booster
-0.07
heights
-0.06
pit
-0.06
arı
-0.06
що
-0.06
danger
-0.06
becomes
-0.06
harassed
-0.06
sw
-0.06
POSITIVE LOGITS
0.07
ABEL
0.07
इसल
0.06
Анг
0.06
AKE
0.06
よね
0.06
теб
0.06
来说
0.06
()."
0.06
자세
0.06
Activations Density 0.033%