INDEX
Negative Logits
Pros
-0.08
Pros
-0.08
pros
-0.07
色情
-0.07
ثمر
-0.07
thrift
-0.07
argent
-0.07
hadde
-0.07
�
-0.06
pw
-0.06
POSITIVE LOGITS
hierboven
0.09
poque
0.08
över
0.08
bovenstaande
0.08
hão
0.08
above
0.08
toj
0.08
Suom
0.08
legd
0.08
tom
0.08
Activations Density 0.003%