INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    eners
    -0.07
    *↵↵
    -0.07
    skraft
    -0.07
     vorg
    -0.07
     bias
    -0.07
    argument
    -0.07
    δέ
    -0.07
    ్యత
    -0.07
    atau
    -0.07
    ไป
    -0.06
    POSITIVE LOGITS
    时期
    0.12
    -era
    0.12
     Romantic
    0.10
    0.10
     era
    0.10
    -century
    0.09
     каз
    0.09
     century
    0.09
     Jess
    0.09
     যুগ
    0.09
    Act Density 0.006%

    No Known Activations