INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    0.39
    こちらは
    0.38
    0.38
    此时
    0.37
    这时候
    0.36
    甚至
    0.36
    inité
    0.36
    只见
    0.36
     wont
    0.35
    不能
    0.33
    POSITIVE LOGITS
     Translation
    1.16
     meaning
    1.13
     translates
    1.10
    Translation
    1.09
     translation
    1.06
     translated
    1.05
    这意味着
    1.02
     translate
    1.01
     Translated
    1.01
     Meaning
    1.00
    Act Density 0.013%

    No Known Activations