INDEX
Negative Logits
լ
-0.08
True
-0.07
.ob
-0.07
гол
-0.07
introductory
-0.07
Pre
-0.06
🎿
-0.06
Principal
-0.06
المه
-0.06
TextArea
-0.06
POSITIVE LOGITS
orbit
0.07
irony
0.07
demise
0.06
forgiving
0.06
newline
0.06
نها
0.06
giant
0.06
uder
0.06
America
0.06
outlaw
0.06
Activations Density 0.010%