INDEX
    Explanations

    describing definitions or states

    New Auto-Interp
    Negative Logits
     bruke
    0.47
     från
    0.46
     centaines
    0.46
     grote
    0.45
     große
    0.44
     sofort
    0.43
     zuerst
    0.43
     erste
    0.43
     අපි
    0.42
     deinen
    0.42
    POSITIVE LOGITS
    हालांकि
    0.55
    的一些
    0.53
     somewhat
    0.50
     কিছুটা
    0.48
    보다는
    0.47
    possibly
    0.47
     Однако
    0.47
    可能会
    0.47
    一些
    0.46
    虽然
    0.45
    Act Density 0.058%

    No Known Activations