INDEX
    Explanations

    specific nouns and their type

    New Auto-Interp
    Negative Logits
    :
    0.54
     विकल्प
    0.51
     μόνο
    0.45
    ľad
    0.45
     خدمة
    0.45
     potrà
    0.45
     ίδια
    0.45
     کی۔
    0.44
     deberían
    0.44
    prüfung
    0.43
    POSITIVE LOGITS
     R
    0.48
    n
    0.47
     K
    0.46
     N
    0.45
    ik
    0.41
     be
    0.40
     T
    0.40
     you
    0.39
    ir
    0.39
     Y
    0.38
    Act Density 2.555%

    No Known Activations