INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     навед
    -0.08
    ולוג
    -0.08
     ని
    -0.08
     übr
    -0.08
    -0.08
    יגע
    -0.08
    -се
    -0.08
    וצאות
    -0.08
     нес
    -0.08
     سالن
    -0.08
    POSITIVE LOGITS
     cliffs
    0.09
     hills
    0.08
     blister
    0.08
     والمن
    0.08
     Defense
    0.08
    kel
    0.07
     curved
    0.07
     inim
    0.07
     spir
    0.07
    icide
    0.07
    Act Density 0.003%

    No Known Activations