INDEX
Explanations
declining harmful instructions
New Auto-Interp
Negative Logits
ดี
0.44
好
0.44
เมื่อ
0.42
dù
0.42
저
0.40
meski
0.40
ดี
0.38
മി
0.37
winged
0.37
ក្រោម
0.37
POSITIVE LOGITS
analyzed
0.44
ตำบล
0.44
看出
0.42
qualitatively
0.41
urnal
0.41
ponden
0.40
dasarkan
0.40
0.39
viewed
0.39
rendement
0.39
Activations Density 0.002%