INDEX
Explanations
phrases indicating preference or comparison
New Auto-Interp
Negative Logits
folio
-0.07
pedia
-0.07
.dm
-0.07
é¡į
-0.07
í
-0.07
duk
-0.07
ridge
-0.06
éĹ²
-0.06
詳細
-0.06
á»IJ
-0.06
POSITIVE LOGITS
/or
0.08
bar
0.06
lando
0.06
ovel
0.05
ashboard
0.05
tml
0.05
ĥ
0.05
strictly
0.05
ld
0.05
ź
0.05
Activations Density 0.011%