INDEX
Negative Logits
lediglich
0.46
called
0.45
dénom
0.45
específico
0.44
sogenannten
0.44
gọi
0.43
碜
0.43
kerül
0.42
demeure
0.41
罅
0.41
POSITIVE LOGITS
まるで
0.67
마치
0.63
正常
0.54
professionals
0.47
정상
0.46
真正的
0.46
behaved
0.45
profesionales
0.44
behaves
0.43
savages
0.43
Activations Density 0.108%