INDEX
Explanations
past tense verbs like was/were
New Auto-Interp
Negative Logits
합니다
0.91
ходят
0.87
हैं
0.86
됩니다
0.83
があります
0.79
mohou
0.79
않습니다
0.79
आहे
0.78
são
0.78
しますが
0.78
POSITIVE LOGITS
était
1.77
ήταν
1.77
była
1.73
buvo
1.72
étaient
1.66
vardı
1.62
was
1.61
이었다
1.54
была
1.53
było
1.50
Activations Density 0.161%