INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    っている
    0.92
    した
    0.82
    ول
    0.76
    お金
    0.76
    0.73
    pción
    0.73
     :).
    0.73
    ambarkan
    0.72
    0.71
    った
    0.71
    POSITIVE LOGITS
    at
    1.23
     Transparency
    1.23
    ad
    1.18
     Transparent
    1.15
    et
    1.09
    Transparent
    1.05
     透明
    1.05
    Transparency
    1.02
     transparency
    1.00
    il
    1.00
    Act Density 0.013%

    No Known Activations