INDEX
Explanations
explaining AI experience or feelings
New Auto-Interp
Negative Logits
提供了
0.52
提供
0.50
ましょう
0.49
提供
0.47
優れた
0.46
此
0.45
Provide
0.45
רי
0.44
scavenger
0.44
しましょう
0.44
POSITIVE LOGITS
honestly
0.75
myself
0.70
我现在
0.70
Honestly
0.69
ഞാൻ
0.64
ನಾನು
0.63
pribadi
0.63
நான்
0.63
Honestly
0.62
mujhe
0.61
Activations Density 0.154%