INDEX
Explanations
describing definitions or states
New Auto-Interp
Negative Logits
bruke
0.47
från
0.46
centaines
0.46
grote
0.45
große
0.44
sofort
0.43
zuerst
0.43
erste
0.43
අපි
0.42
deinen
0.42
POSITIVE LOGITS
हालांकि
0.55
的一些
0.53
somewhat
0.50
কিছুটা
0.48
보다는
0.47
possibly
0.47
Однако
0.47
可能会
0.47
一些
0.46
虽然
0.45
Activations Density 0.058%