INDEX
Negative Logits
typo
-0.09
객
-0.09
multiplication
-0.08
ć
-0.08
nautical
-0.08
002
-0.08
jok
-0.07
cosine
-0.07
turb
-0.07
tedious
-0.07
POSITIVE LOGITS
custody
0.09
grandparents
0.09
福利
0.09
квали
0.08
allegations
0.08
classified
0.08
нарушения
0.08
Classified
0.08
violations
0.08
случаях
0.08
Activations Density 0.040%