INDEX
Negative Logits
drifting
-0.07
protective
-0.07
erm
-0.06
navig
-0.06
Fly
-0.06
zier
-0.06
pharmacist
-0.06
Emily
-0.06
.energy
-0.06
모
-0.06
POSITIVE LOGITS
0.08
重大
0.07
人民
0.06
τέρα
0.06
0.06
FW
0.06
届
0.06
vements
0.06
_SER
0.06
|/
0.06
Activations Density 0.003%