INDEX
Explanations
verbs indicating function or action
New Auto-Interp
Negative Logits
Yourself
0.36
组成的
0.34
ین
0.31
ett
0.30
irgend
0.30
این
0.29
või
0.29
Myself
0.29
踌
0.29
yourself
0.28
POSITIVE LOGITS
ставляет
0.52
ňuje
0.49
водит
0.49
মূলত
0.48
щает
0.47
itself
0.45
izuje
0.45
жает
0.43
ítja
0.43
вает
0.42
Activations Density 0.115%