INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     വ്യക്തമ
    -0.08
    .gravity
    -0.08
    057
    -0.08
     Guill
    -0.07
    ifficulty
    -0.07
    -0.07
     단계
    -0.07
     Say
    -0.07
     differing
    -0.07
     ঘট
    -0.07
    POSITIVE LOGITS
     luôn
    0.08
    /pass
    0.08
    0.08
    Status
    0.08
    иться
    0.08
    Ded
    0.08
     (>
    0.08
     thesis
    0.08
     vivir
    0.07
     penuh
    0.07
    Act Density 0.007%

    No Known Activations