INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    𝗲
    0.50
     друзья
    0.46
     শোনা
    0.44
     bellezza
    0.44
     കാഴ്ച
    0.44
     ಪ್ರಯತ್ನ
    0.43
    0.43
     பரப்பு
    0.42
     Questi
    0.42
     Мак
    0.42
    POSITIVE LOGITS
    ص
    0.55
    Benefits
    0.47
    ب
    0.46
    0.46
    0.46
    وى
    0.46
    اس
    0.45
    हिर
    0.45
    Basket
    0.45
    ួក
    0.44
    Act Density 0.000%

    No Known Activations