INDEX
Negative Logits
influential
-0.08
التع
-0.07
fresh
-0.07
版
-0.06
usern
-0.06
lardan
-0.06
ventilation
-0.06
invalid
-0.06
rocks
-0.06
تن
-0.06
POSITIVE LOGITS
asympt
0.11
RT
0.08
yr
0.07
asym
0.07
.y
0.07
OMET
0.07
AST
0.07
ismo
0.07
aim
0.07
XT
0.07
Activations Density 0.002%