INDEX
Negative Logits
consistent
-0.08
capability
-0.07
ター
-0.07
capturing
-0.07
ื
-0.07
回
-0.07
ತರ
-0.07
solving
-0.07
contaminants
-0.07
Cons
-0.07
POSITIVE LOGITS
congratulate
0.10
exclaimed
0.10
склон
0.10
fprintf
0.09
Talking
0.09
Pron
0.09
noun
0.08
ആഘ
0.08
Veter
0.08
Congrats
0.08
Activations Density 0.002%