INDEX
    Explanations

    `Category` or `Co` or `caf`

    New Auto-Interp
    Negative Logits
     шокола
    0.45
    kada
    0.44
     Kristian
    0.43
     Kopp
    0.42
     Krem
    0.42
    Chord
    0.41
    krit
    0.41
     pernik
    0.40
     Kard
    0.40
     Krit
    0.40
    POSITIVE LOGITS
    Ĭ
    1.30
    0.77
     С
    0.63
    க்
    0.63
     כ
    0.61
     அந்தக்
    0.60
    0.57
     コン
    0.57
    𝒸
    0.56
     con
    0.55
    Act Density 1.452%

    No Known Activations