INDEX
Explanations
original list, natural hair, short, mild
New Auto-Interp
Negative Logits
л
0.42
ون
0.39
の
0.39
在
0.38
ın
0.37
ла
0.36
ancak
0.35
他の
0.34
ال
0.34
きれい
0.34
POSITIVE LOGITS
(
0.39
(
0.31
y
0.31
for
0.30
ET
0.29
PM
0.29
out
0.28
at
0.28
yuan
0.28
omen
0.26
Activations Density 2.447%