INDEX
Negative Logits
llama
-0.07
gods
-0.07
Lag
-0.07
й
-0.06
copied
-0.06
/release
-0.06
/downloads
-0.06
eworthy
-0.06
fuck
-0.06
الاس
-0.06
POSITIVE LOGITS
ôt
0.06
_EST
0.06
เส
0.06
’T
0.06
ニ
0.06
behaved
0.06
якщо
0.06
(id
0.06
flex
0.05
toh
0.05
Activations Density 0.114%