INDEX
Negative Logits
y
1.03
ט
1.02
ﺐ
0.95
ów
0.93
ורים
0.91
들도
0.91
tage
0.90
יה
0.87
يات
0.87
دى
0.86
POSITIVE LOGITS
もしくは
0.88
ли
0.86
かの
0.85
إ
0.77
ेश
0.76
Seja
0.75
κ
0.75
あるいは
0.73
械
0.73
𝒄
0.73
Activations Density 0.003%
y
ט
ﺐ
ów
ורים
들도
tage
יה
يات
دى
もしくは
ли
かの
إ
ेश
Seja
κ
あるいは
械
𝒄