INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -3.36
    lgari
    -3.00
    -2.98
     рассказывает
    -2.86
    -2.66
     знал
    -2.61
     которы
    -2.58
     видел
    -2.52
    -2.52
    -2.48
    POSITIVE LOGITS
    2
    2.47
    );
    2.38
    //
    2.38
    i
    2.34
    лил
    2.30
    s
    2.28
    了一
    2.23
    2.22
     также
    2.19
    4
    2.16
    Act Density 0.003%

    No Known Activations