INDEX
Negative Logits
xeb
-0.08
misinformation
-0.07
``
-0.07
attorneys
-0.07
beings
-0.07
不可
-0.07
sunk
-0.07
audiences
-0.07
calor
-0.07
ştir
-0.07
POSITIVE LOGITS
ap
0.09
Prince
0.08
ricula
0.08
BSITE
0.08
_checkpoint
0.08
nitong
0.08
venait
0.08
Contrast
0.07
Ap
0.07
deel
0.07
Activations Density 0.003%