INDEX
Negative Logits
pancakes
-0.07
groceries
-0.07
instruction
-0.07
slun
-0.07
steam
-0.07
translation
-0.06
σιεύ
-0.06
telemetry
-0.06
。我
-0.06
ware
-0.06
POSITIVE LOGITS
validations
0.07
rick
0.07
ennes
0.06
zenia
0.06
eshire
0.06
edilir
0.06
/max
0.06
Lisa
0.06
九
0.06
things
0.06
Activations Density 0.013%