INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .controller
    -0.07
    	core
    -0.07
     фот
    -0.07
    aura
    -0.07
    rieving
    -0.07
    -0.07
     clin
    -0.07
    מצ
    -0.07
    חדש
    -0.07
     Young
    -0.07
    POSITIVE LOGITS
     refusal
    0.07
     coherent
    0.06
     Lounge
    0.06
    Dst
    0.06
    unker
    0.06
    umbles
    0.06
     główna
    0.06
    一贯
    0.06
    _ER
    0.06
     Nội
    0.06
    Act Density 0.004%

    No Known Activations