INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    م
    1.45
    ن
    1.06
    ،
    1.05
    ت
    0.98
    س
    0.95
        
    0.93
    et
    0.92
    ور
    0.89
    0.88
    0.87
    POSITIVE LOGITS
     бер
    0.85
     \}
    0.79
     созда
    0.78
     cuer
    0.78
     conocido
    0.78
     erhöht
    0.78
     bốn
    0.77
     служи
    0.76
     був
    0.73
     прид
    0.73
    Act Density 0.003%

    No Known Activations