INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    odzi
    -0.07
    coholic
    -0.07
    -0.07
     افت
    -0.07
    \Traits
    -0.06
    -0.06
     subtraction
    -0.06
     descendants
    -0.06
    保护
    -0.06
    Rain
    -0.06
    POSITIVE LOGITS
     tune
    0.09
     tuned
    0.09
     tuning
    0.09
     Tun
    0.08
    un
    0.08
     Tune
    0.08
     Tunis
    0.07
     learning
    0.07
     ale
    0.07
     Tunisia
    0.06
    Act Density 0.009%

    No Known Activations