INDEX
    Explanations

    treats as, views, frames, sees

    New Auto-Interp
    Negative Logits
    ācijas
    0.40
    things
    0.40
    льной
    0.39
    Name
    0.39
    лам
    0.38
     рыб
    0.38
    ımın
    0.38
     તેમણે
    0.38
    नाम
    0.37
     पता
    0.37
    POSITIVE LOGITS
     menjadikan
    0.49
     рассматривать
    0.46
     treating
    0.45
    每一次
    0.45
    treating
    0.41
     Treat
    0.40
    เป็นการ
    0.40
     নিজেকে
    0.39
     ως
    0.39
     act
    0.37
    Act Density 0.040%

    No Known Activations