INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    uristic
    -0.07
    ψει
    -0.07
     dz
    -0.06
     CONSEQUENTIAL
    -0.06
     karşılık
    -0.06
    ۱۰
    -0.06
     inan
    -0.06
    fight
    -0.06
    -0.06
     Κατηγορία
    -0.06
    POSITIVE LOGITS
     layers
    0.10
     layer
    0.08
     Layer
    0.07
     опас
    0.06
     simmer
    0.06
     Layers
    0.06
     Sor
    0.06
    _low
    0.06
    ]",↵
    0.06
    (utf
    0.06
    Act Density 0.017%

    No Known Activations