INDEX
    Explanations

    positive descriptive adjectives

    New Auto-Interp
    Negative Logits
    2
    0.90
    ה
    0.90
    s
    0.89
    ים
    0.88
     טוב
    0.85
    _
    0.75
    the
    0.75
    ));
    0.74
    ه
    0.73
    1
    0.73
    POSITIVE LOGITS
    ку
    0.87
    ли
    0.85
    inement
    0.79
    ramique
    0.79
    им
    0.75
    finement
    0.75
    ció
    0.74
     அழகான
    0.74
    ар
    0.73
    цо
    0.73
    Act Density 0.933%

    No Known Activations