INDEX
Negative Logits
orig
-0.08
mín
-0.08
LSU
-0.08
व्हा
-0.07
Lore
-0.07
ontstaan
-0.07
영
-0.07
fence
-0.07
frac
-0.07
ப்படும்
-0.07
POSITIVE LOGITS
demeanor
0.12
subdued
0.09
Enough
0.09
下来
0.09
شديد
0.08
calm
0.08
tranquilo
0.08
calme
0.08
态
0.08
闲
0.08
Activations Density 0.007%