INDEX
Negative Logits
King's
-0.08
ob
-0.08
jusqu
-0.08
Todd
-0.08
勢
-0.07
encore
-0.07
Ul
-0.07
angi
-0.07
_ui
-0.07
Tod
-0.07
POSITIVE LOGITS
respectively
0.11
分别
0.09
서로
0.09
birbir
0.09
respectivamente
0.09
alas
0.09
philosophers
0.08
notebooks
0.08
각각
0.08
alike
0.08
Activations Density 0.007%