INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     wagon
    -0.07
     homo
    -0.07
     BJ
    -0.07
     Mun
    -0.07
     giorno
    -0.07
     Investigations
    -0.06
     media
    -0.06
     mentoring
    -0.06
     jer
    -0.06
     yanlış
    -0.06
    POSITIVE LOGITS
    <{
    0.07
     داشت
    0.07
    .App
    0.07
    ванов
    0.06
     находится
    0.06
     довольно
    0.06
     sowie
    0.06
    DROP
    0.06
    -cloud
    0.06
    ۲
    0.06
    Act Density 0.005%

    No Known Activations