INDEX
Negative Logits
;|
-0.07
唯
-0.06
Noble
-0.06
Gavin
-0.06
semanas
-0.06
plains
-0.06
学校
-0.06
Bender
-0.06
vastly
-0.06
Viewport
-0.06
POSITIVE LOGITS
identification
0.07
sexism
0.06
-cut
0.06
parody
0.06
dash
0.06
REC
0.06
android
0.06
TEST
0.06
_nf
0.06
Side
0.06
Activations Density 0.002%