INDEX
Explanations
expressions of agreement or affirmation
sentence ending particle よ
New Auto-Interp
Negative Logits
IntoConstraints
-0.53
Italijani
-0.46
kháu
-0.45
átku
-0.42
égi
-0.42
'\\;'
-0.40
ويكيميديا
-0.39
selfie
-0.39
ตร์
-0.38
texinfo
-0.37
POSITIVE LOGITS
よ
2.28
よ
1.32
よー
1.12
ですよ
0.99
だよ
0.93
のよ
0.85
よって
0.84
よね
0.81
んだよ
0.77
ヨ
0.69
Activations Density 0.008%