INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    เป็น
    1.11
    ה
    0.86
    令牌
    0.84
     власть
    0.83
    번째
    0.81
    こちら
    0.80
    <unused50>
    0.76
    ไม่
    0.75
    zeitig
    0.75
     bangsa
    0.74
    POSITIVE LOGITS
    ні
    0.96
    т
    0.95
     Ironically
    0.93
    во
    0.83
    ס
    0.80
    ों
    0.80
     outcrops
    0.79
    тни
    0.78
    stopper
    0.77
     a
    0.77
    Act Density 0.001%

    No Known Activations