INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    best
    -0.08
    iquer
    -0.07
     nhiệm
    -0.07
     ترک
    -0.07
    portlet
    -0.07
    Glyph
    -0.06
     Inn
    -0.06
     planner
    -0.06
     Zah
    -0.06
    urr
    -0.06
    POSITIVE LOGITS
     réfé
    0.07
     traveler
    0.06
     уточ
    0.06
    (factory
    0.06
    女人
    0.06
     {{↵
    0.06
     bitte
    0.06
     duy
    0.06
    _config
    0.06
     أش
    0.06
    Act Density 0.024%

    No Known Activations