INDEX
    Explanations

    from and its equivalents

    New Auto-Interp
    Negative Logits
    irk
    0.39
    icer
    0.38
    uchtigkeit
    0.38
    aber
    0.38
    ertz
    0.36
    platin
    0.35
    hael
    0.35
    boyfriend
    0.35
    சாமி
    0.34
    opera
    0.34
    POSITIVE LOGITS
     từ
    0.46
    จาก
    0.46
     from
    0.46
     kutoka
    0.45
     från
    0.45
     від
    0.41
    0.40
    پ
    0.39
     dari
    0.39
     perspici
    0.39
    Act Density 0.000%

    No Known Activations