INDEX
Negative Logits
aston
-0.09
সফ
-0.08
orro
-0.08
лор
-0.08
arske
-0.08
irano
-0.08
Observation
-0.08
anst
-0.07
apollo
-0.07
ruž
-0.07
POSITIVE LOGITS
-size
0.08
notwendigen
0.08
مني
0.07
dennoch
0.07
ិន
0.07
doch
0.07
carpet
0.07
pourtant
0.07
irgendwie
0.07
задания
0.07
Activations Density 0.014%