INDEX
    Explanations

    learning Japanese

    New Auto-Interp
    Negative Logits
     صادر
    -0.10
    澳门
    -0.10
    广州
    -0.10
     Shenzhen
    -0.09
     وقع
    -0.09
     Goiás
    -0.09
     Cameroon
    -0.09
     重庆
    -0.09
     يو
    -0.09
    云南
    -0.09
    POSITIVE LOGITS
     roman
    0.08
     hir
    0.08
    して
    0.07
    iran
    0.07
     sets
    0.07
     Hir
    0.07
    ot
    0.07
    юн
    0.07
     Bennett
    0.07
    sets
    0.07
    Act Density 0.010%

    No Known Activations