INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     vertical
    0.51
     ,
    0.47
     and
    0.46
    หรือ
    0.45
    0.45
     &
    0.44
     or
    0.43
    และ
    0.43
     z
    0.43
     appar
    0.42
    POSITIVE LOGITS
    0.53
     Каждый
    0.48
    ভক্ত
    0.45
     Jeder
    0.44
     Każ
    0.44
    eating
    0.43
    여기
    0.43
    ಾನೆ
    0.43
    Athens
    0.42
    吃飯
    0.42
    Act Density 0.020%

    No Known Activations