INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     affect
    -0.07
     attack
    -0.07
    gebra
    -0.07
     burn
    -0.07
    lük
    -0.07
     agréable
    -0.07
    -0.07
    ança
    -0.07
     Adj
    -0.06
     undercover
    -0.06
    POSITIVE LOGITS
     בלבד
    0.11
     మాత్రమే
    0.10
     മാത്രം
    0.09
     вместо
    0.09
    ’informations
    0.09
     encamin
    0.09
    のみ
    0.08
     plutôt
    0.08
     invés
    0.08
     Statt
    0.08
    Act Density 0.010%

    No Known Activations