INDEX
Explanations
we or they in different languages
New Auto-Interp
Negative Logits
ലാ
0.82
รือ
0.78
Consult
0.77
असल्यास
0.74
भेड़
0.73
കണ്ടെത്ത
0.72
是否存在
0.71
мел
0.71
大幅
0.69
सरकारी
0.69
POSITIVE LOGITS
ที่เรา
1.14
chúng
1.05
theyre
1.04
we
1.03
我们
0.99
이렇게
0.95
우리가
0.93
they
0.93
이제
0.93
мы
0.90
Activations Density 0.000%