INDEX
Negative Logits
Thế
-0.07
<|start_header_id|>
-0.07
355
-0.06
396
-0.06
qui
-0.06
растение
-0.06
Aydın
-0.06
ethylene
-0.06
UserInfo
-0.06
toy
-0.06
POSITIVE LOGITS
Ember
0.08
موب
0.08
ABEL
0.07
heck
0.07
matters
0.07
ember
0.07
orable
0.07
ーブル
0.07
BER
0.07
-bars
0.07
Activations Density 0.001%