INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.09
     فيه
    -0.08
     low
    -0.08
    ме
    -0.08
    low
    -0.08
    ETCH
    -0.07
    Connections
    -0.07
    tern
    -0.07
    Tha
    -0.07
    loh
    -0.07
    POSITIVE LOGITS
    актор
    0.18
    actors
    0.18
    actor
    0.17
    ্যাক
    0.16
    aktor
    0.15
     actor
    0.14
    acteur
    0.14
    atores
    0.13
    Actor
    0.13
    ാക്
    0.13
    Act Density 0.010%

    No Known Activations