INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ない
    0.31
     která
    0.28
     
    0.28
     undone
    0.27
     그래도
    0.27
     otherwise
    0.27
     kuiten
    0.27
    しまった
    0.26
     solchen
    0.26
     sare
    0.26
    POSITIVE LOGITS
    ،
    0.43
    യാണ്
    0.41
    0.40
    0.37
    .$,
    0.35
    ,
    0.35
    ‌,
    0.34
    0.34
    $,
    0.32
    ,$$
    0.32
    Act Density 0.049%

    No Known Activations