INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     которых
    0.50
     которыми
    0.48
     яких
    0.48
     различные
    0.45
     которым
    0.44
    Ways
    0.43
     различными
    0.43
    Whatever
    0.42
    któ
    0.42
    ковым
    0.40
    POSITIVE LOGITS
     fact
    0.61
     Tatsache
    0.54
     neither
    0.51
     fapt
    0.50
     uncharted
    0.49
    cluded
    0.48
     hecho
    0.46
     vain
    0.46
     fato
    0.46
     사실
    0.45
    Act Density 0.022%

    No Known Activations