INDEX
Negative Logits
ing
0.47
r
0.47
yog
0.47
f
0.46
editing
0.45
র
0.45
mars
0.44
ifrån
0.43
포
0.42
in
0.42
POSITIVE LOGITS
wretched
0.47
τζ
0.47
慮
0.46
Кто
0.43
ApiModel
0.43
щину
0.43
Antes
0.43
horrid
0.43
bruta
0.42
штейн
0.42
Activations Density 0.001%