INDEX
    Explanations

    geometry and notation

    New Auto-Interp
    Negative Logits
     addictions
    -0.08
     Gl
    -0.07
    anduk
    -0.07
     П
    -0.07
     nastav
    -0.07
     sulit
    -0.07
    -cl
    -0.07
    -disciplinary
    -0.07
     chce
    -0.07
     Сдел
    -0.07
    POSITIVE LOGITS
    Remain
    0.09
     contrario
    0.09
    COMMENT
    0.08
     entsprechen
    0.08
    。所以
    0.08
    CHR
    0.08
    remain
    0.08
    コメント
    0.08
    λο
    0.08
    (comment
    0.08
    Act Density 0.087%

    No Known Activations