INDEX
Negative Logits
scissors
0.58
꒳
0.58
cray
0.57
uric
0.57
윳
0.55
Puede
0.55
핵
0.55
同じ
0.55
माल
0.54
folding
0.54
POSITIVE LOGITS
autonomy
0.57
prominence
0.57
راست
0.56
Z
0.55
despise
0.55
premature
0.55
Pride
0.55
flagship
0.53
Antiqu
0.53
extremism
0.53
Activations Density 0.000%