INDEX
Negative Logits
'
0.47
英国
0.45
\&
0.42
anes
0.41
urbs
0.41
alleg
0.41
luxury
0.40
และการ
0.40
ത്തിനും
0.39
cartoon
0.39
POSITIVE LOGITS
kebij
0.46
memória
0.46
rasgos
0.46
hér
0.45
sím
0.44
estím
0.44
splitpos
0.44
Sympt
0.43
бор
0.43
我覺得
0.43
Activations Density 0.003%