INDEX
Explanations
ethical/harmful content avoidance
New Auto-Interp
Negative Logits
ی
1.45
л
1.40
те
1.39
не
1.38
te
1.29
es
1.27
ي
1.27
кте
1.27
a
1.21
ൻ
1.20
POSITIVE LOGITS
berkaitan
1.18
šta
1.17
하는
1.16
عشق
1.15
を行い
1.14
あり
1.13
ότη
1.13
storico
1.13
했지만
1.12
をする
1.11
Activations Density 0.000%