INDEX
Negative Logits
Warp
-0.08
warp
-0.07
clic
-0.07
numb
-0.07
ละคร
-0.07
warp
-0.07
esas
-0.07
poin
-0.07
्छ
-0.07
Rogers
-0.07
POSITIVE LOGITS
happy
0.08
Alk
0.08
lini
0.07
fier
0.07
antib
0.07
ちは
0.07
Fel
0.07
fingert
0.07
ph
0.07
Yep
0.07
Activations Density 0.001%