INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    aac
    0.22
    anath
    0.21
     ț
    0.21
    なさ
    0.21
     ABV
    0.21
     aastal
    0.21
    kappa
    0.20
    udarstvennyj
    0.20
    ্টা
    0.20
     côtes
    0.20
    POSITIVE LOGITS
    他们的
    0.25
     उनके
    0.25
     Những
    0.25
     χωρίς
    0.24
     Without
    0.24
    Their
    0.24
    That
    0.24
    Without
    0.23
    0.23
     реальности
    0.23
    Act Density 0.305%

    No Known Activations