INDEX
    Explanations

    Hebrew and Japanese characters

    New Auto-Interp
    Negative Logits
    -0.78
     Majefty
    -0.58
     voluto
    -0.57
     pleaſure
    -0.56
    مك
    -0.55
    AxisAlignment
    -0.55
    paž
    -0.55
    -0.55
     Diſ
    -0.55
    יצוני
    -0.55
    POSITIVE LOGITS
     חיצוני
    0.51
    Personensuche
    0.51
     שוליים
    0.49
     אחרים
    0.48
     היתה
    0.46
     אחר
    0.45
     נוס
    0.45
     שונים
    0.45
     האם
    0.43
    LookAnd
    0.43
    Act Density 0.013%

    No Known Activations