INDEX
Explanations
structural, anormal, crucial, social
New Auto-Interp
Negative Logits
ներ
0.48
лар
0.46
lar
0.43
Ler
0.43
Ler
0.42
נים
0.42
مرين
0.40
ler
0.40
ாளர்கள்
0.39
Anton
0.39
POSITIVE LOGITS
ولو
0.53
şu
0.48
برو
0.48
خوا
0.47
ُوا
0.47
ствовали
0.46
አሉ
0.46
ooo
0.45
یرو
0.45
שו
0.45
Activations Density 0.003%