INDEX
Negative Logits
abuse
-0.08
钋
-0.08
少し
-0.07
facility
-0.07
theatre
-0.07
Carlo
-0.07
Reservation
-0.07
===>
-0.07
alker
-0.07
petit
-0.07
POSITIVE LOGITS
民警
0.07
البل
0.07
GPIO
0.06
誤
0.06
الصح
0.06
OMP
0.06
Cog
0.06
GPIO
0.06
yı
0.06
cog
0.06
Activations Density 0.024%