INDEX
Negative Logits
UB
-0.08
ged
-0.08
regard
-0.08
uj
-0.07
資
-0.07
الأن
-0.07
urge
-0.07
יא
-0.07
NIL
-0.07
ий
-0.07
POSITIVE LOGITS
semic
0.09
Parker
0.08
তম
0.08
sexual
0.08
duino
0.08
0.08
Rodriguez
0.07
-start
0.07
diante
0.07
Rodríguez
0.07
Activations Density 0.002%