INDEX
Negative Logits
Alcohol
-0.08
む
-0.07
Wnd
-0.07
ystate
-0.07
급
-0.07
측
-0.07
-X
-0.07
slashes
-0.07
اظ
-0.07
Wall
-0.07
POSITIVE LOGITS
###↵
0.07
divide
0.07
پش
0.06
ऐस
0.06
بین
0.06
mindful
0.06
projecting
0.06
átel
0.06
parchment
0.06
(parsed
0.06
Activations Density 0.002%