INDEX
Negative Logits
accused
0.53
ハリ
0.53
ޑ
0.46
diox
0.46
atrocious
0.45
atrocities
0.45
austere
0.44
ットン
0.44
acclaimed
0.44
craz
0.44
POSITIVE LOGITS
Το
0.50
το
0.46
Το
0.45
“
0.44
습니다
0.43
odpowiedzi
0.43
réponse
0.42
었습니다
0.42
rips
0.42
什麼
0.42
Activations Density 0.003%