INDEX
Explanations
proper nouns or specific terms
New Auto-Interp
Negative Logits
(
0.71
여러
0.61
afresh
0.57
אחד
0.56
scrutin
0.55
וש
0.53
ﺍ
0.52
这个
0.52
بڑی
0.52
vasos
0.52
POSITIVE LOGITS
ও
0.86
in
0.82
도
0.82
та
0.81
在
0.73
.
0.72
も
0.70
ın
0.70
ের
0.67
т
0.66
Activations Density 0.120%