INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     custo
    -0.08
    -0.07
     شعب
    -0.07
     Trent
    -0.07
     обуслов
    -0.07
    -0.07
    нот
    -0.07
     അയ
    -0.07
     угол
    -0.06
    orpus
    -0.06
    POSITIVE LOGITS
     eigentlich
    0.08
     mia
    0.08
     analogue
    0.07
     immin
    0.07
    -going
    0.07
     DU
    0.07
    0.07
     yal
    0.07
     পারে
    0.07
     debía
    0.07
    Act Density 0.016%

    No Known Activations