INDEX
Negative Logits
uls
-0.08
satisfait
-0.08
충
-0.08
nuisance
-0.08
xes
-0.08
pares
-0.08
-0.08
بابت
-0.08
HT
-0.08
Orwell
-0.08
POSITIVE LOGITS
taller
0.08
vertical
0.08
guidance
0.08
vertical
0.07
вертик
0.07
hanging
0.07
act
0.07
ג
0.07
spiritual
0.07
Guidance
0.07
Activations Density 0.020%