INDEX
Explanations
detail prompt accuracy folder
New Auto-Interp
Negative Logits
த்திலும்
0.47
مربوط
0.42
andos
0.41
छोड़कर
0.40
த்திற்கும்
0.40
ത്തിലും
0.38
lié
0.37
මත්
0.37
visant
0.37
ማለት
0.36
POSITIVE LOGITS
នូវ
1.34
what
0.96
how
0.80
את
0.78
those
0.74
什么是
0.69
آنچه
0.69
what
0.64
why
0.61
hvad
0.59
Activations Density 0.027%