INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     kinda
    1.80
     hehe
    1.79
     PLUGIN
    1.77
     내가
    1.72
    ちょっと
    1.71
     숫자
    1.71
     wondrous
    1.69
     ちょっと
    1.67
    みたいな
    1.64
     정말
    1.64
    POSITIVE LOGITS
     במהלך
    1.03
    ol
    1.01
    ​​
    1.00
    ाल
    0.99
     ​​
    0.98
    0.96
    ð
    0.95
    el
    0.94
    por
    0.94
    ions
    0.92
    Act Density 0.067%

    No Known Activations