INDEX
Explanations
informal language and actions
New Auto-Interp
Negative Logits
๘
0.49
하였다
0.48
ทาง
0.47
ân
0.44
နှင့်
0.42
الضرب
0.41
加以
0.41
nCount
0.41
เพียง
0.40
;<
0.40
POSITIVE LOGITS
literally
0.84
fuck
0.82
fucked
0.82
fucking
0.81
idk
0.79
lmao
0.79
shit
0.75
Literally
0.73
literally
0.72
shitty
0.71
Activations Density 0.042%