INDEX
Negative Logits
or
0.63
and
0.57
feces
0.55
but
0.54
pero
0.52
اؤ
0.52
và
0.51
dari
0.50
که
0.50
perceive
0.49
POSITIVE LOGITS
本身
0.50
黢
0.47
itself
0.46
许多
0.44
เอง
0.44
자체가
0.44
자체
0.44
स्
0.44
重新
0.44
自身
0.43
Activations Density 0.007%
or
and
feces
but
pero
اؤ
và
dari
که
perceive
本身
黢
itself
许多
เอง
자체가
자체
स्
重新
自身