INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Synd
    -0.08
     токс
    -0.08
    _async
    -0.08
    roga
    -0.08
     Legisl
    -0.07
    washer
    -0.07
     Alonso
    -0.07
     Regency
    -0.07
    യിലെ
    -0.07
    _comment
    -0.07
    POSITIVE LOGITS
     geçirilen
    0.09
     Geburtstag
    0.08
     spaghetti
    0.08
     plutôt
    0.08
     mümkün
    0.08
     جذ
    0.07
     פתר
    0.07
     পদ
    0.07
     חיים
    0.07
     قصة
    0.07
    Act Density 0.003%

    No Known Activations