INDEX
Explanations
determiners followed by specific words
New Auto-Interp
Negative Logits
ahankan
0.84
ナソニック
0.84
нажа
0.82
ين
0.81
ac
0.79
площа
0.77
،
0.77
ség
0.75
eem
0.75
чыныгы
0.75
POSITIVE LOGITS
.
0.95
ע
0.87
from
0.82
digestive
0.81
די
0.79
לי
0.77
that
0.76
appre
0.75
ST
0.75
indigestion
0.74
Activations Density 0.000%