INDEX
    Explanations

    where/wherein/où/где

    New Auto-Interp
    Negative Logits
    0.59
    डी
    0.49
    existe
    0.49
    ამის
    0.48
    Jangan
    0.47
    ડિયા
    0.47
    आई
    0.46
    डा
    0.46
    0.46
    0.46
    POSITIVE LOGITS
     wherein
    0.59
     where
    0.55
    0.55
     όπου
    0.53
     где
    0.52
     gdzie
    0.50
     opposites
    0.48
     whereby
    0.48
     waarbij
    0.47
     caractér
    0.45
    Act Density 0.002%

    No Known Activations