INDEX
Explanations
explaining by comparison or story
New Auto-Interp
Negative Logits
ذریع
0.35
nonché
0.33
म्हणजेच
0.32
étaient
0.32
উচিৎ
0.32
Trouble
0.31
valamint
0.31
そして
0.31
دادن
0.31
Delta
0.30
POSITIVE LOGITS
क्योंकि
0.49
ибо
0.44
นะครับ
0.42
because
0.41
porque
0.39
因为
0.39
çünkü
0.39
karena
0.38
นะ
0.38
لأن
0.38
Activations Density 0.003%