INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    І
    0.80
    Зна
    0.79
    0.78
    В
    0.77
    Ми
    0.76
    Щ
    0.75
    Ве
    0.75
    Роз
    0.75
    Те
    0.74
    П
    0.74
    POSITIVE LOGITS
     kont
    0.82
     ik
    0.80
     z
    0.78
     azalt
    0.76
     ha
    0.76
     iki
    0.76
     kon
    0.75
     le
    0.75
     es
    0.73
     er
    0.72
    Act Density 0.033%

    No Known Activations