INDEX
Negative Logits
spent
0.44
Homo
0.38
pron
0.37
टकों
0.37
scores
0.37
educativos
0.36
relig
0.35
sweat
0.35
ारों
0.35
infancy
0.35
POSITIVE LOGITS
-
0.52
Another
0.42
スーパー
0.40
टू
0.38
hale
0.36
損
0.36
Li
0.36
_
0.36
imgur
0.36
ファミリー
0.36
Activations Density 0.000%