INDEX
    Explanations

    structural, anormal, crucial, social

    New Auto-Interp
    Negative Logits
    ներ
    0.48
    лар
    0.46
    lar
    0.43
    Ler
    0.43
     Ler
    0.42
    נים
    0.42
    مرين
    0.40
    ler
    0.40
    ாளர்கள்
    0.39
    Anton
    0.39
    POSITIVE LOGITS
    ولو
    0.53
    şu
    0.48
    برو
    0.48
    خوا
    0.47
    ُوا
    0.47
    ствовали
    0.46
     አሉ
    0.46
    ooo
    0.45
    یرو
    0.45
    שו
    0.45
    Act Density 0.003%

    No Known Activations