INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     bekannten
    0.28
     allgemeinen
    0.28
     innych
    0.28
     ancak
    0.27
    手的
    0.27
     ብዙውን
    0.27
    }-\
    0.27
     erwarten
    0.27
    }=\
    0.27
    0.27
    POSITIVE LOGITS
    at
    0.41
    K
    0.33
    י
    0.32
    0.32
    ת
    0.30
    ו
    0.30
     phù
    0.29
    то
    0.28
    até
    0.27
    0.27
    Act Density 0.137%

    No Known Activations