INDEX
Negative Logits
ಪೆ
0.49
कार्यक्रमा
0.47
ινε
0.46
<0xE1>
0.43
enzie
0.43
趾
0.42
その他の
0.42
سایر
0.42
オー
0.41
дорогие
0.41
POSITIVE LOGITS
intended
0.47
violation
0.42
sida
0.42
vi
0.41
nginx
0.41
logic
0.41
dangereux
0.40
loosening
0.40
violations
0.39
dangerously
0.39
Activations Density 0.004%