INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    6
    0.98
    2
    0.94
    5
    0.92
    tahun
    0.84
    den
    0.81
    9
    0.81
    ۹
    0.80
    7
    0.78
    ang
    0.77
    dalam
    0.75
    POSITIVE LOGITS
    0.93
     an
    0.88
     in
    0.80
    0.80
    في
    0.80
    在那里
    0.78
    0.71
    مي
    0.70
    ني
    0.69
    在哪里
    0.65
    Act Density 1.676%

    No Known Activations