INDEX
    Explanations

    labeled training data truth

    New Auto-Interp
    Negative Logits
    0.46
    ством
    0.45
     ملعب
    0.43
     शिलालेख
    0.43
     பயன்படுத்து
    0.43
     ressort
    0.42
     adresu
    0.41
     поя
    0.41
    வார்
    0.41
     affrontare
    0.41
    POSITIVE LOGITS
     corresponding
    0.48
     authority
    0.48
     corrections
    0.48
     matching
    0.47
     truths
    0.46
     authoritative
    0.45
     predictions
    0.45
     labels
    0.44
     pairings
    0.43
     truth
    0.43
    Act Density 0.132%

    No Known Activations