INDEX
Explanations
maintain relationships and states
New Auto-Interp
Negative Logits
Ка
0.93
directa
0.93
է
0.92
muškar
0.91
يل
0.89
Бу
0.89
النها
0.88
الألم
0.88
اليس
0.88
大
0.88
POSITIVE LOGITS
ت
1.49
ר
1.35
ر
1.34
ق
1.34
ם
1.28
u
1.24
y
1.20
توان
1.16
ર
1.15
b
1.13
Activations Density 0.022%