INDEX
Negative Logits
ũ
-0.07
NSNotification
-0.07
ưỡ
-0.07
either
-0.06
奶油
-0.06
fuera
-0.06
altın
-0.06
检察
-0.06
悪
-0.06
\(
-0.06
POSITIVE LOGITS
refl
0.08
_personal
0.08
McKin
0.07
defin
0.07
$self
0.07
ידה
0.07
_handle
0.07
ሚ
0.07
镗
0.07
handle
0.07
Activations Density 0.005%