INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     llamados
    0.38
     bài
    0.37
     ت
    0.35
    0.35
    0.34
     norm
    0.34
     بمع
    0.34
     ours
    0.34
     à
    0.33
     spr
    0.33
    POSITIVE LOGITS
    后者
    0.75
     therein
    0.68
     அந்த
    0.64
     সেই
    0.61
     latter
    0.60
    その
    0.59
     उस
    0.57
    அந்த
    0.56
    那个
    0.56
     उक्त
    0.55
    Act Density 1.033%

    No Known Activations