INDEX
Explanations
even in contrast or exception
New Auto-Interp
Negative Logits
k
0.69
é
0.68
f
0.67
ু
0.67
ون
0.66
kannya
0.66
いた
0.64
та
0.62
تی
0.61
го
0.61
POSITIVE LOGITS
2
0.71
ized
0.61
.
0.58
когато
0.55
6
0.54
представить
0.53
7
0.53
चाहिए
0.52
мм
0.52
imo
0.52
Activations Density 0.093%