INDEX
Negative Logits
.mu
-0.07
spokeswoman
-0.07
*T
-0.07
claration
-0.07
ارزیابی
-0.07
*@
-0.06
fro
-0.06
τικό
-0.06
"" ↵
-0.06
้าหน
-0.06
POSITIVE LOGITS
Font
0.06
-long
0.06
Topic
0.06
naming
0.06
chef
0.06
.squeeze
0.06
spicy
0.06
WoW
0.06
.Security
0.06
.USER
0.06
Activations Density 0.002%