INDEX
    Explanations

    multi-language non-English words

    New Auto-Interp
    Negative Logits
    к
    0.48
    ще
    0.47
     descriptor
    0.46
    ين
    0.45
    0.44
     عَل
    0.44
    ان
    0.43
     orient
    0.43
    ي
    0.42
     instru
    0.41
    POSITIVE LOGITS
    ชั่น
    0.60
    ियर
    0.58
    ഡ്
    0.57
    जीवन
    0.56
    न्ड
    0.55
    糖尿
    0.53
    해서
    0.52
    ซ์
    0.52
    Jenis
    0.52
    0.52
    Act Density 0.000%

    No Known Activations