INDEX
    Explanations

    cool followed by noun/topic

    New Auto-Interp
    Negative Logits
    ي
    1.07
    י
    1.02
    ك
    0.86
    ی
    0.86
    та
    0.85
    ль
    0.84
    чай
    0.84
    ס
    0.84
    к
    0.84
    ри
    0.83
    POSITIVE LOGITS
    }
    0.80
    '))
    0.69
    eli
    0.68
    à
    0.67
     for
    0.66
    .
    0.65
    itt
    0.65
    }-\
    0.64
     föret
    0.64
    ')
    0.63
    Act Density 0.005%

    No Known Activations