INDEX
Explanations
comment block endings in code
New Auto-Interp
Negative Logits
de
-0.87
đ
-0.82
er
-0.74
-
-0.74
E
-0.74
h
-0.72
of
-0.71
-0.70
E
-0.69
д
-0.69
POSITIVE LOGITS
)*/
1.78
})*/
1.74
.*/
1.60
};*/
1.51
();*/
1.49
]-->
1.49
});*/
1.48
;*/
1.48
);*/
1.42
}*/
1.42
Activations Density 0.048%