INDEX
Negative Logits
depuis
-0.08
uted
-0.07
inut
-0.07
DATA
-0.07
confort
-0.07
-0.07
centration
-0.07
জানান
-0.07
'heure
-0.07
geen
-0.07
POSITIVE LOGITS
ataque
0.09
unnecessarily
0.09
偷
0.08
.alloc
0.08
করলে
0.08
攻击
0.08
dishonest
0.08
disrespect
0.08
зараж
0.08
thetho
0.08
Activations Density 0.005%