INDEX
Negative Logits
wrongdoing
-0.09
lanjut
-0.08
замест
-0.08
непосредственно
-0.08
/Admin
-0.08
particulars
-0.08
mechanism
-0.08
pente
-0.08
اقدام
-0.08
вещества
-0.08
POSITIVE LOGITS
典
0.09
Gray
0.09
经典
0.08
Gabri
0.08
Tokyo
0.08
typ
0.08
Grant
0.08
198
0.08
_GRAY
0.08
Grant
0.08
Activations Density 0.005%