INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ב
    0.97
    ла
    0.95
     listopada
    0.91
    לי
    0.90
     može
    0.88
    ین
    0.86
    0.86
     kaže
    0.78
    ای
    0.77
    ール
    0.77
    POSITIVE LOGITS
    fashioned
    1.04
    h
    1.04
     fashioned
    1.02
    I
    0.98
     old
    0.96
    old
    0.93
    та
    0.87
     Old
    0.86
    ται
    0.83
    ib
    0.82
    Act Density 0.074%

    No Known Activations