INDEX
Negative Logits
I
0.77
ק
0.69
in
0.66
로
0.59
ו
0.57
는
0.55
った
0.55
ignition
0.55
اک
0.54
۱
0.54
POSITIVE LOGITS
0.67
swam
0.48
ddar
0.46
ীন্দ্র
0.45
sands
0.42
orius
0.41
ttle
0.40
éf
0.40
üsü
0.39
finesse
0.39
Activations Density 0.001%
I
ק
in
로
ו
는
った
ignition
اک
۱
swam
ddar
ীন্দ্র
sands
orius
ttle
éf
üsü
finesse