INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    াহিয়ার
    0.56
    0.55
    0.53
    0.52
     menggambarkan
    0.52
    0.50
    0.50
     技術
    0.50
    0.50
    0.49
    POSITIVE LOGITS
    2
    0.61
    k
    0.57
    x
    0.57
    n
    0.57
    3
    0.56
    5
    0.53
    j
    0.52
    4
    0.52
    ,
    0.51
    b
    0.51
    Act Density 0.002%

    No Known Activations