INDEX
Negative Logits
culprit
0.75
upright
0.70
esteps
0.68
sière
0.68
Penguin
0.66
доби
0.65
true
0.64
Luckily
0.64
claws
0.64
similarities
0.62
POSITIVE LOGITS
No
1.09
no
1.06
পণ্য
0.93
NO
0.92
娛樂
0.88
/
0.86
No
0.85
இய
0.84
军事
0.84
או
0.84
Activations Density 0.050%