INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .INSTANCE
    -0.07
    ߥ
    -0.07
     даж
    -0.06
    -0.06
     stabbing
    -0.06
    -0.06
    ́
    -0.06
    有用的
    -0.06
     rocket
    -0.06
    avigation
    -0.06
    POSITIVE LOGITS
     систем
    0.08
     ao
    0.07
    服装
    0.07
     serviço
    0.07
    pair
    0.07
    0.07
    סל
    0.07
    Mean
    0.07
     Brazil
    0.07
     tuo
    0.06
    Act Density 0.003%

    No Known Activations