INDEX
    Explanations

    non-English concepts

    New Auto-Interp
    Negative Logits
     kalau
    0.58
     ትንሽ
    0.58
     esposo
    0.57
     όμως
    0.57
     صغير
    0.56
     малень
    0.56
     sukar
    0.55
     lille
    0.54
     Biraz
    0.54
     nyní
    0.54
    POSITIVE LOGITS
    包括
    0.56
     क्षमताओं
    0.55
     включа
    0.55
    规范
    0.55
     возможностей
    0.54
     các
    0.52
    সমূহ
    0.52
     వివిధ
    0.52
     কার্যক্রম
    0.51
    分野
    0.51
    Act Density 0.001%

    No Known Activations