INDEX
Explanations
tags indicating categories or themes in the content
New Auto-Interp
Negative Logits
erge
-0.08
achs
-0.07
auen
-0.07
_:*
-0.07
idebar
-0.07
arios
-0.07
erre
-0.07
temps
-0.07
rosso
-0.07
лаÑĩ
-0.07
POSITIVE LOGITS
asic
0.06
akra
0.06
d
0.06
Attached
0.06
Cons
0.05
άνÏĦα
0.05
fout
0.05
f
0.05
-hook
0.05
enburg
0.05
Activations Density 0.005%