INDEX
Explanations
verbs for actions and outcomes
New Auto-Interp
Negative Logits
нередко
0.55
весьма
0.54
缺乏
0.50
досить
0.48
думы
0.48
вполне
0.47
forcément
0.47
способствует
0.47
reszt
0.47
Begriffsklär
0.47
POSITIVE LOGITS
three
0.71
five
0.69
four
0.65
two
0.64
using
0.63
each
0.59
username
0.57
then
0.56
with
0.56
तीन
0.55
Activations Density 0.119%