INDEX
Explanations
words in definitions or lists
New Auto-Interp
Negative Logits
م
0.74
ت
0.74
ع
0.74
一些
0.63
ম
0.61
小米
0.61
ك
0.60
for
0.59
EL
0.59
Egy
0.56
POSITIVE LOGITS
ast
0.53
effect
0.51
ிய
0.50
ших
0.49
ков
0.48
ubin
0.48
ânia
0.47
ться
0.47
qui
0.47
っと
0.47
Activations Density 0.242%