INDEX
Negative Logits
Ng
-0.07
criminals
-0.06
FIR
-0.06
resort
-0.06
bảng
-0.06
sar
-0.06
�
-0.06
',[
-0.06
towels
-0.06
/,
-0.06
POSITIVE LOGITS
teammates
0.31
teammate
0.28
vnitř
0.07
ілі
0.07
vyh
0.07
учит
0.07
політи
0.07
üstü
0.07
восп
0.06
yyyy
0.06
Activations Density 0.001%