INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     مفهوم
    -0.07
    .item
    -0.07
    альному
    -0.07
     Kunst
    -0.06
    ших
    -0.06
     Parliament
    -0.06
    (scanner
    -0.06
     کردم
    -0.06
    ";↵↵
    -0.06
    bond
    -0.06
    POSITIVE LOGITS
     Axes
    0.06
    _fe
    0.06
    -sidebar
    0.06
     مركز
    0.06
    vw
    0.06
    емати
    0.06
    lessons
    0.06
    conversation
    0.06
    =localhost
    0.06
    ovation
    0.05
    Act Density 0.043%

    No Known Activations