INDEX
Negative Logits
il
0.61
er
0.47
ypter
0.47
Affected
0.45
>
0.44
崞
0.43
ilize
0.42
itri
0.42
:*
0.42
olicy
0.41
POSITIVE LOGITS
barang
0.54
ﻪ
0.52
ǧ
0.52
Просто
0.50
쿠
0.50
friendly
0.50
pescado
0.50
Европа
0.49
సు
0.49
sıv
0.49
Activations Density 0.001%