INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     числа
    -0.08
     Gateway
    -0.08
     hed
    -0.08
    θ
    -0.08
     fibr
    -0.08
    -0.07
     annat
    -0.07
     قدر
    -0.07
    _consum
    -0.07
    عم
    -0.07
    POSITIVE LOGITS
    -même
    0.11
    ’re
    0.10
     தனது
    0.08
    0.08
    /her
    0.08
    ’ve
    0.08
     Mir
    0.08
     પોતાની
    0.08
    에게
    0.07
     ấy
    0.07
    Act Density 0.085%

    No Known Activations