INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     exams
    -0.07
     Περ
    -0.06
    nika
    -0.06
     ern
    -0.06
     Aura
    -0.06
    cccc
    -0.06
     paren
    -0.06
     submar
    -0.06
     LIN
    -0.06
     kazan
    -0.06
    POSITIVE LOGITS
     Hollywood
    0.11
    0.06
    Pairs
    0.06
    0.06
    _embed
    0.06
     poids
    0.06
     куст
    0.06
     methyl
    0.06
    金属
    0.06
    Verts
    0.06
    Act Density 0.003%

    No Known Activations