INDEX
    Explanations

    cardinal directions

    New Auto-Interp
    Negative Logits
    bk
    -0.08
     فرا
    -0.08
     detox
    -0.08
    Д
    -0.08
     نص
    -0.08
     ق
    -0.07
     agile
    -0.07
    û
    -0.07
     neural
    -0.07
     Dein
    -0.07
    POSITIVE LOGITS
    -east
    0.08
    (origin
    0.08
    距离
    0.08
    位置
    0.08
     geom
    0.08
    -facing
    0.08
    ingin
    0.08
     приб
    0.08
    0.07
     Blues
    0.07
    Act Density 0.005%

    No Known Activations