INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    work
    0.95
    ك
    0.92
    In
    0.89
    pagination
    0.86
    ront
    0.82
    ногда
    0.82
    t
    0.81
    4
    0.81
     In
    0.80
    Until
    0.80
    POSITIVE LOGITS
     masculino
    0.94
     judíos
    0.93
     enemigos
    0.93
     físicas
    0.92
     personajes
    0.91
     wszystkie
    0.91
    0.90
    ่ม
    0.89
     físicos
    0.89
     przyjem
    0.88
    Act Density 0.002%

    No Known Activations