INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ქრ
    -0.09
     სექტ
    -0.08
     mwezi
    -0.08
     ambazo
    -0.08
       
    -0.08
     mjini
    -0.08
     קאַ
    -0.08
    քները
    -0.08
    ակում
    -0.08
    სენ
    -0.08
    POSITIVE LOGITS
    。不过
    0.11
    _answer
    0.10
    Unless
    0.10
    -answer
    0.10
     unless
    0.10
    。但
    0.10
    。但是
    0.10
     correctness
    0.09
    unless
    0.09
     Unless
    0.09
    Act Density 0.028%

    No Known Activations