INDEX
Negative Logits
Ib
-0.07
clothes
-0.07
ropes
-0.06
ourselves
-0.06
Bro
-0.06
🍍
-0.06
OTS
-0.06
胳膊
-0.06
nâ
-0.06
�
-0.06
POSITIVE LOGITS
aliases
0.08
imer
0.07
вод
0.07
ож
0.07
븜
0.07
TIMER
0.07
מין
0.07
chrift
0.07
(dictionary
0.07
gg
0.07
Activations Density 0.034%