INDEX
Explanations
negation, lack, or difficulty
New Auto-Interp
Negative Logits
поча
0.59
risorse
0.54
recursos
0.54
подготовке
0.53
preparazione
0.53
ресурсов
0.51
ресур
0.51
ресурсы
0.51
кость
0.50
ષા
0.50
POSITIVE LOGITS
coin
0.55
automobile
0.53
swimmer
0.50
IL
0.48
of
0.46
ordinary
0.46
US
0.46
.
0.46
oath
0.45
el
0.45
Activations Density 0.001%