INDEX
Negative Logits
Net
-0.08
OUN
-0.07
tham
-0.07
Nathan
-0.07
Terms
-0.07
المنت
-0.07
Gareth
-0.06
Тому
-0.06
Ka
-0.06
萬
-0.06
POSITIVE LOGITS
inside
0.19
Inside
0.15
Inside
0.14
inside
0.12
insider
0.09
внутри
0.08
dentro
0.08
си
0.08
_ING
0.07
insky
0.07
Activations Density 0.015%