INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     abge
    -0.08
     άλλα
    -0.08
     obsah
    -0.08
    دل
    -0.08
    .sch
    -0.08
     sau
    -0.07
     dein
    -0.07
     вашим
    -0.07
     brute
    -0.07
    vit
    -0.07
    POSITIVE LOGITS
    /output
    0.08
     linewidth
    0.08
    _SIZE
    0.08
     kích
    0.08
    ைந்த
    0.08
     काल
    0.08
    /time
    0.08
     лиш
    0.08
     даль
    0.08
     срок
    0.07
    Act Density 0.001%

    No Known Activations