INDEX
Negative Logits
ال
0.46
Most
0.45
ஜீ
0.45
golang
0.42
지에
0.41
maliciously
0.41
mon
0.40
most
0.40
relsen
0.39
பட
0.39
POSITIVE LOGITS
hattan
0.68
MAN
0.66
Man
0.63
マン
0.62
Manit
0.56
끽
0.54
Man
0.51
ম্যান
0.51
manipulator
0.49
ман
0.49
Activations Density 0.033%