INDEX
Negative Logits
wachten
-0.07
col
-0.07
илл
-0.07
Kr
-0.07
amplification
-0.07
леген
-0.07
transporte
-0.07
heat
-0.07
pet
-0.07
uvres
-0.07
POSITIVE LOGITS
317
0.09
ところ
0.08
יר
0.08
tastes
0.08
sober
0.07
ernen
0.07
adolescence
0.07
ادی
0.07
بت
0.07
017
0.07
Activations Density 0.010%