INDEX
Negative Logits
UTO
-0.07
�
-0.07
dictatorship
-0.07
Hanson
-0.07
prolifer
-0.07
警察
-0.07
ضة
-0.07
치
-0.06
LABEL
-0.06
ása
-0.06
POSITIVE LOGITS
ujících
0.06
buff
0.06
(sqrt
0.06
ından
0.05
/animate
0.05
/inet
0.05
abus
0.05
Manufacturing
0.05
اكن
0.05
始
0.05
Activations Density 0.019%