INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    0.80
    s
    0.80
    0.78
    đi
    0.78
    ב
    0.78
    ف
    0.77
     esperti
    0.75
     ê
    0.75
    0.75
     porém
    0.72
    POSITIVE LOGITS
    いた
    0.71
     जिसे
    0.68
    0.68
    0.67
    द्व
    0.67
    ยนต์
    0.67
    국의
    0.66
    นะครับ
    0.66
    0.66
    но
    0.65
    Act Density 0.105%

    No Known Activations