INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    تها
    1.95
    ع
    1.88
    ても
    1.84
    ست
    1.73
    संख्यक
    1.72
    সি
    1.66
    ه
    1.63
    ص
    1.62
    ップ
    1.61
    นะ
    1.60
    POSITIVE LOGITS
     Так
    2.02
    ете
    1.94
     рода
    1.68
    Тре
    1.67
    inent
    1.66
    1.62
    krieg
    1.57
    То
    1.55
    1.55
    ων
    1.54
    Act Density 0.005%

    No Known Activations