INDEX
Negative Logits
Τα
0.41
Lesley
0.40
assertSame
0.39
Tang
0.38
ระยะ
0.38
måtte
0.37
मिलेंगे
0.37
Τα
0.37
sélectionnez
0.36
唐
0.36
POSITIVE LOGITS
harmless
0.88
legitimate
0.79
legitimately
0.79
正常的
0.74
legít
0.71
innocuous
0.69
legitt
0.66
нормально
0.65
normal
0.64
healthy
0.64
Activations Density 0.141%