INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     dieser
    0.50
     dieses
    0.43
     diminishes
    0.42
     questa
    0.41
     usually
    0.41
     corresponds
    0.40
     această
    0.40
     này
    0.40
     this
    0.38
     differs
    0.38
    POSITIVE LOGITS
     همچنین
    0.55
     Также
    0.52
    我们也
    0.51
     таксама
    0.51
     Bahkan
    0.50
     גם
    0.49
     també
    0.49
     также
    0.48
     також
    0.48
     hatta
    0.47
    Act Density 0.134%

    No Known Activations