INDEX
Explanations
state changes or deterioration
New Auto-Interp
Negative Logits
0
0.38
1
0.38
-
0.35
ود
0.31
ِ
0.31
0.30
2
0.29
8
0.27
ту
0.27
করে
0.26
POSITIVE LOGITS
wodurch
0.44
oleh
0.40
bởi
0.40
más
0.39
ফলে
0.38
ហើយ
0.37
vollständig
0.37
สาว
0.37
ninguém
0.37
andRow
0.37
Activations Density 0.058%