INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     funktioniert
    -0.08
     kwab
    -0.08
     работает
    -0.07
    477
    -0.07
    ORB
    -0.07
     Ep
    -0.07
    教学
    -0.07
     economically
    -0.07
     colonies
    -0.07
     erklärt
    -0.07
    POSITIVE LOGITS
     grateful
    0.09
     fingers
    0.08
     vow
    0.08
     enorm
    0.08
    0.08
     fate
    0.08
     গভ
    0.08
     Nurse
    0.07
     наслаж
    0.07
    zens
    0.07
    Act Density 0.031%

    No Known Activations