INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     vigilant
    -0.08
     vigilance
    -0.08
    ölle
    -0.08
    rogate
    -0.07
     πί
    -0.07
    escape
    -0.07
     Escape
    -0.07
     Pompe
    -0.07
    unter
    -0.07
    ,out
    -0.07
    POSITIVE LOGITS
     professora
    0.08
    קד
    0.07
    īb
    0.07
     czerw
    0.07
     csrf
    0.07
     nug
    0.07
    ীদ
    0.07
     COS
    0.07
     madres
    0.07
     tutors
    0.07
    Act Density 0.033%

    No Known Activations