INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
    ના
    -0.08
    හැ
    -0.08
    nasium
    -0.07
    leton
    -0.07
    eyay
    -0.07
    -0.07
     prens
    -0.07
    စာ
    -0.07
    িনা
    -0.07
    POSITIVE LOGITS
    udge
    0.11
    ijent
    0.11
    üter
    0.11
    ünder
    0.11
    üglich
    0.10
    äglich
    0.10
    juč
    0.10
    öße
    0.10
    ímav
    0.10
    axon
    0.10
    Act Density 0.004%

    No Known Activations