INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ש
    2.09
    č
    1.77
    かで
    1.63
     precludes
    1.57
    もう
    1.55
    ność
    1.55
    1.54
    1.51
     vrch
    1.50
    ğı
    1.48
    POSITIVE LOGITS
    م
    2.67
    ים
    2.36
    ان
    1.93
    та
    1.71
    ει
    1.71
    ر
    1.71
    و
    1.70
    r
    1.68
    ל
    1.68
    ור
    1.66
    Act Density 0.097%

    No Known Activations