INDEX
Explanations
mammals and mammalian concepts
New Auto-Interp
Negative Logits
س
3.39
ون
2.09
يف
2.05
ě
1.95
phép
1.77
ţie
1.77
μόνο
1.74
াউন
1.73
يتي
1.73
ви
1.70
POSITIVE LOGITS
৫
2.58
t
2.28
৮
2.16
いです
2.03
littered
2.02
ب
1.99
tio
1.98
৭
1.95
нку
1.86
theless
1.83
Activations Density 0.058%