INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     wodurch
    -2.06
     womit
    -2.00
    -1.91
     elaborate
    -1.86
    神器
    -1.85
        
    -1.85
    同様に
    -1.84
    -1.84
     −
    -1.84
     ‌
    -1.80
    POSITIVE LOGITS
    .
    2.94
    you
    2.28
    2.27
     بشأن
    2.14
     ADVICE
    2.11
     内衣
    2.09
     駅前
    1.98
    いかない
    1.95
    advice
    1.91
     télévis
    1.91
    Act Density 0.009%

    No Known Activations