INDEX
Explanations
believe followed by opinion
New Auto-Interp
Negative Logits
тка
1.79
ل
1.63
нка
1.56
selves
1.52
зва
1.48
ן
1.46
す
1.45
нкт
1.41
م
1.40
ﻑ
1.39
POSITIVE LOGITS
it
2.25
㐄
1.65
ate
1.63
am
1.58
டன்
1.58
ic
1.57
এবং
1.47
ט
1.47
畔
1.47
ことにより
1.46
Activations Density 0.010%