INDEX
Negative Logits
Oracle
-0.08
Know
-0.08
theta
-0.07
-là
-0.07
Oracle
-0.07
148
-0.07
ihn
-0.07
sgem
-0.07
Rabbit
-0.07
redux
-0.07
POSITIVE LOGITS
霍
0.08
Wagner
0.07
pumpkin
0.07
гир
0.07
заранее
0.07
طوان
0.07
annik
0.07
peppers
0.07
Ehren
0.07
Mah
0.07
Activations Density 0.001%