INDEX
    Explanations

    temperature-related terms and measurements

    New Auto-Interp
    Negative Logits
    kin
    -0.18
     Comm
    -0.17
    foo
    -0.17
    ko
    -0.17
    ki
    -0.17
    me
    -0.17
    fu
    -0.16
    fg
    -0.16
    od
    -0.16
    unc
    -0.16
    POSITIVE LOGITS
     må
    0.21
     vä
    0.20
     hö
    0.19
     jä
    0.19
     nä
    0.19
     lä
    0.18
     tä
    0.18
     lå
    0.18
     när
    0.18
     andra
    0.18
    Act Density 0.013%

    No Known Activations