INDEX
Explanations
sight-related terms or verbs suggesting perception
New Auto-Interp
Negative Logits
men
-0.07
æ³Ĭ
-0.07
ÏĦικα
-0.07
dl
-0.06
erator
-0.06
away
-0.06
ine
-0.06
arest
-0.06
et
-0.06
cap
-0.06
POSITIVE LOGITS
lah
0.07
259
0.07
obr
0.06
лова
0.06
ös
0.06
rzy
0.06
_Tis
0.06
nodoc
0.06
ainen
0.06
รà¸Ħ
0.06
Activations Density 0.003%