INDEX
Explanations
connecting models and logic
New Auto-Interp
Negative Logits
נו
0.46
לי
0.45
או
0.41
ני
0.41
정
0.41
до
0.40
בו
0.39
מת
0.38
ЛИ
0.38
END
0.38
POSITIVE LOGITS
لكن
0.41
khiến
0.41
kvůli
0.40
иногда
0.40
nedeniyle
0.40
0.38
nhưng
0.38
swojej
0.37
möglicherweise
0.37
JPMorgan
0.37
Activations Density 0.000%