INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ようになった
    0.52
    0.48
    0.44
     majority
    0.44
    等于
    0.43
    сть
    0.43
     것처럼
    0.42
    $.
    0.42
    ફેદ
    0.42
    自从
    0.41
    POSITIVE LOGITS
    möglich
    0.60
    0.54
    0.50
    عرض
    0.50
    αν
    0.49
     dolayı
    0.49
    ι
    0.47
    ا
    0.47
    itali
    0.46
    Έ
    0.46
    Act Density 0.002%

    No Known Activations