INDEX
Negative Logits
Victim
-0.08
/dr
-0.07
Western
-0.06
Zen
-0.06
Coun
-0.06
таких
-0.06
sır
-0.06
Naz
-0.06
.self
-0.06
들에게
-0.06
POSITIVE LOGITS
مشخص
0.07
period
0.06
квітня
0.06
สะ
0.06
バ
0.06
merit
0.06
Latitude
0.06
Cary
0.06
]:↵↵
0.06
チャ
0.06
Activations Density 0.047%