INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    자료
    -0.07
     자료
    -0.06
    });↵↵
    -0.06
    Tv
    -0.06
    .social
    -0.06
    -0.06
    -0.06
    Jan
    -0.06
    ,…↵↵
    -0.06
    holding
    -0.06
    POSITIVE LOGITS
     humour
    0.07
     pours
    0.06
     θέ
    0.06
    (sound
    0.06
    ردد
    0.06
     intake
    0.06
    غم
    0.06
    до
    0.06
    .cond
    0.06
    oder
    0.06
    Act Density 0.023%

    No Known Activations