INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     неизвест
    0.42
     beispielsweise
    0.41
    вший
    0.40
    れば
    0.40
    そもそも
    0.39
     tedy
    0.38
    лін
    0.38
    ুই
    0.37
     زیاد
    0.37
    没事
    0.37
    POSITIVE LOGITS
     sambil
    0.82
     באופן
    0.79
     بشكل
    0.79
     방식으로
    0.77
     manière
    0.76
     with
    0.75
     differently
    0.73
    的方式
    0.73
     spôsob
    0.73
     maniera
    0.72
    Act Density 0.041%

    No Known Activations