INDEX
Explanations
temperature-related terms and measurements
New Auto-Interp
Negative Logits
kin
-0.18
Comm
-0.17
foo
-0.17
ko
-0.17
ki
-0.17
me
-0.17
fu
-0.16
fg
-0.16
od
-0.16
unc
-0.16
POSITIVE LOGITS
må
0.21
vä
0.20
hö
0.19
jä
0.19
nä
0.19
lä
0.18
tä
0.18
lå
0.18
när
0.18
andra
0.18
Activations Density 0.013%