INDEX
Negative Logits
GAP
-0.07
Gat
-0.07
_Char
-0.06
tact
-0.06
intimidation
-0.06
sword
-0.06
layouts
-0.06
turret
-0.06
ibration
-0.06
_malloc
-0.06
POSITIVE LOGITS
resent
0.07
conserv
0.06
شاء
0.06
promin
0.06
interruptions
0.06
_cent
0.06
代理
0.06
çevir
0.06
ouv
0.06
bipartisan
0.06
Activations Density 0.010%