INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
It
0.72
it
0.64
I
0.51
’
0.46
มัน
0.40
攽
0.39
มัน
0.38
It
0.37
んですね
0.36
can
0.36
POSITIVE LOGITS
3
0.76
ك
0.71
4
0.69
6
0.68
0
0.63
5
0.61
9
0.54
ка
0.53
1
0.52
were
0.51
Activations Density 0.000%