INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Counters
    -0.08
    _dims
    -0.08
     Stamp
    -0.07
    φο
    -0.07
     ההת
    -0.07
     Stav
    -0.07
     Niet
    -0.07
    psz
    -0.07
     Hust
    -0.07
    jeve
    -0.07
    POSITIVE LOGITS
     فارسی
    0.10
    Exec
    0.08
     максимально
    0.08
     wat
    0.07
    ант
    0.07
    Br
    0.07
    Libre
    0.07
     prose
    0.07
    Frontend
    0.07
    Perm
    0.07
    Act Density 0.009%

    No Known Activations