INDEX
Negative Logits
hela
0.59
hele
0.58
strutt
0.57
seuls
0.57
selbst
0.55
ُوا
0.55
déjà
0.54
difficultés
0.54
سنگ
0.54
små
0.54
POSITIVE LOGITS
𝑌
0.62
<0xA9>
0.62
んにちは
0.62
profiss
0.62
芝
0.61
asal
0.60
auxin
0.60
حق
0.59
nless
0.59
<0xBE>
0.58
Activations Density 0.000%