INDEX
Negative Logits
aando
-0.08
Пов
-0.08
चक
-0.08
reduct
-0.08
PURPOSE
-0.08
יבת
-0.07
czyn
-0.07
wrongdoing
-0.07
Lec
-0.07
делать
-0.07
POSITIVE LOGITS
vốn
0.09
bast
0.08
剩
0.08
Norge
0.08
còn
0.08
Spanish
0.08
vije
0.07
dus
0.07
الإسب
0.07
espanh
0.07
Activations Density 0.013%