INDEX
Explanations
references to doors and their mechanisms
New Auto-Interp
Negative Logits
Palmas
-0.83
Allociné
-0.76
"")
-0.74
liesslich
-0.73
")),
-0.72
Macon
-0.72
'}),
-0.72
__))
-0.71
vermogen
-0.71
mijne
-0.70
POSITIVE LOGITS
doors
1.68
door
1.65
Doors
1.53
Door
1.53
door
1.51
DOOR
1.49
Door
1.41
Doors
1.40
doors
1.33
DOOR
1.19
Activations Density 0.047%