INDEX
    Explanations

    introducing categories or examples

    New Auto-Interp
    Negative Logits
    ،
    0.34
    0.27
     ،
    0.22
    0.21
     (
    0.21
    0.19
    (),
    0.19
    ,.
    0.19
     
    0.19
    _
    0.19
    POSITIVE LOGITS
     लेकिन
    0.27
    लेकिन
    0.25
     позволя
    0.23
     குறிப்பாக
    0.23
     although
    0.23
     क्योंकि
    0.22
    although
    0.22
     જેમાં
    0.22
    allowing
    0.22
     которое
    0.22
    Act Density 1.556%

    No Known Activations