INDEX
Explanations
personal beliefs and thoughts
New Auto-Interp
Negative Logits
упомина
1.01
erwähnt
1.00
Mention
0.97
mentioning
0.96
mentioned
0.95
mention
0.94
Mention
0.90
备注
0.90
提及
0.87
mencionó
0.87
POSITIVE LOGITS
believe
1.63
believes
1.60
我认为
1.51
認為
1.46
认为
1.46
belief
1.45
believe
1.37
argue
1.34
argument
1.30
argues
1.29
Activations Density 0.144%