INDEX
Negative Logits
Ladies
-0.07
تعاون
-0.07
Perez
-0.07
缦
-0.07
诙
-0.06
飒
-0.06
ef
-0.06
连线
-0.06
tri
-0.06
Sanford
-0.06
POSITIVE LOGITS
itioner
0.07
ложение
0.07
disagreed
0.07
מון
0.06
emy
0.06
morally
0.06
damages
0.06
סות
0.06
гляд
0.06
밋
0.06
Activations Density 0.018%