INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     stare
    -0.10
     drivetrain
    -0.09
    'er
    -0.08
    Spo
    -0.08
     Someone
    -0.07
    )?↵
    -0.07
     Ats
    -0.07
     Bezug
    -0.07
    ’er
    -0.07
     diel
    -0.07
    POSITIVE LOGITS
    0.12
    0.09
    不足
    0.09
    0.09
     متفاوت
    0.09
     inclin
    0.09
    0.08
    不错
    0.08
     rebellious
    0.08
     desvi
    0.08
    Act Density 0.038%

    No Known Activations