INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    นี้
    0.80
     этому
    0.79
    ນີ້
    0.74
     Där
    0.72
    0.71
     dieses
    0.70
     ಮೂಲ
    0.69
     этого
    0.69
    コレ
    0.69
     দিয়া
    0.69
    POSITIVE LOGITS
     >
    0.73
    0.66
     hago
    0.64
    ١
    0.63
     tags
    0.63
    setLayout
    0.63
    arh
    0.62
    explanatory
    0.62
    метка
    0.60
     начну
    0.60
    Act Density 0.025%

    No Known Activations