INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     emphasizes
    0.20
     bırak
    0.18
     trenches
    0.18
     yaptı
    0.17
     defies
    0.17
     maximizes
    0.17
     revolver
    0.17
     ketiga
    0.17
    мага
    0.17
     aligns
    0.17
    POSITIVE LOGITS
    you
    0.24
     you
    0.23
    used
    0.23
    我們要
    0.21
    which
    0.21
     которую
    0.21
     जोकि
    0.21
    ซึ่ง
    0.20
     którą
    0.19
    même
    0.19
    Act Density 0.186%

    No Known Activations