INDEX
Negative Logits
teh
-0.09
damned
-0.08
ward
-0.08
ounce
-0.08
panna
-0.08
IND
-0.08
wang
-0.07
благодар
-0.07
др
-0.07
sul
-0.07
POSITIVE LOGITS
.car
0.08
Rice
0.08
verv
0.08
법
0.08
Notre
0.07
일반
0.07
Yan
0.07
_speed
0.07
Rice
0.07
Elimin
0.07
Activations Density 0.078%