INDEX
Negative Logits
Atmos
-0.08
karya
-0.08
pourront
-0.08
Levi
-0.08
qualify
-0.08
Wann
-0.08
Clint
-0.08
_dataset
-0.07
_pow
-0.07
qualifies
-0.07
POSITIVE LOGITS
态
0.09
stor
0.08
goed
0.08
变化
0.08
.states
0.08
privately
0.07
accrued
0.07
состоянии
0.07
restaurant
0.07
stanje
0.07
Activations Density 0.005%