INDEX
    Explanations

    demonstratives and common articles

    New Auto-Interp
    Negative Logits
     కీలక
    0.42
    7
    0.42
    字段
    0.41
    6
    0.40
    サイズ
    0.39
    5
    0.38
    0
    0.37
    3
    0.37
    n
    0.36
    center
    0.35
    POSITIVE LOGITS
     this
    0.75
     этом
    0.63
     этой
    0.61
     этих
    0.60
     цього
    0.59
     этого
    0.57
     এই
    0.53
     these
    0.53
     этот
    0.53
     dieser
    0.52
    Act Density 0.156%

    No Known Activations