INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _BASIC
    -0.07
     sach
    -0.07
    argar
    -0.07
    zu
    -0.06
    كثر
    -0.06
     Lan
    -0.06
    ものを
    -0.06
     kan
    -0.06
    นำเสนอ
    -0.06
    Sum
    -0.06
    POSITIVE LOGITS
    0.07
    خارج
    0.07
    coins
    0.07
    0.07
    _ent
    0.07
    0.06
     curiosity
    0.06
    Restaurant
    0.06
     |_|
    0.06
    驿
    0.06
    Act Density 0.221%

    No Known Activations