INDEX
Negative Logits
lose
-0.08
achd
-0.07
mat
-0.07
ij
-0.07
-0.07
kow
-0.07
cooper
-0.07
ank
-0.07
relieving
-0.07
Checks
-0.07
POSITIVE LOGITS
xr
0.08
Carlos
0.08
rag
0.08
Cab
0.08
cab
0.07
Ruta
0.07
江
0.07
Ses
0.07
116
0.07
malpractice
0.07
Activations Density 0.001%