INDEX
Negative Logits
ple
-0.08
)])
-0.07
agena
-0.07
speech
-0.07
Martin
-0.07
Entr
-0.07
entw
-0.07
zier
-0.07
ذار
-0.07
Þ
-0.07
POSITIVE LOGITS
kre
0.08
kaya
0.08
바
0.07
เป
0.07
elk
0.07
pul
0.07
tata
0.07
ಪಾಲ
0.07
awake
0.07
Hi
0.07
Activations Density 0.005%