INDEX
Negative Logits
mk
-0.08
rank
-0.08
Kle
-0.08
arty
-0.07
Snowden
-0.07
diarrhea
-0.07
grazing
-0.07
dissent
-0.07
mantle
-0.07
Oz
-0.07
POSITIVE LOGITS
empf
0.09
doon
0.08
Reli
0.08
malad
0.07
AUD
0.07
府
0.07
inco
0.07
缓
0.07
س
0.07
disability
0.07
Activations Density 0.032%