INDEX
Explanations
No Explanations Found
New Auto-Interp
Negative Logits
希望能
0.50
inesper
0.49
これからも
0.47
کولی
0.47
insgesamt
0.46
也将
0.46
"@/
0.46
chemin
0.46
的一次
0.46
ches
0.46
POSITIVE LOGITS
Nons
1.05
laughable
1.02
untrue
1.00
nonsense
0.99
nonsense
0.95
contradicted
0.91
fallacy
0.90
contradicts
0.90
Wrong
0.89
FALSE
0.86
Activations Density 0.120%