INDEX
Explanations
evaluator followed by but in multiple languages
New Auto-Interp
Negative Logits
↵
0.32
\
0.27
0.25
でした
0.25
0.25
!!!
0.25
0.25
!!!
0.25
0.24
0.24
POSITIVE LOGITS
nhưng
1.30
but
1.22
ولكن
1.22
ngunit
1.20
แต่
1.16
lakini
1.16
लेकिन
1.13
mutta
1.10
لكن
1.09
있지만
1.09
Activations Density 4.226%