INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Результат
    -1.02
     now
    -1.00
    によって
    -0.92
    但却
    -0.92
     смо
    -0.92
     egiten
    -0.89
     Suc
    -0.88
    zlo
    -0.87
     Reykjav
    -0.86
    ľov
    -0.85
    POSITIVE LOGITS
    ڡ
    1.16
    の方に
    1.04
     oscuros
    1.03
    </sub>
    1.02
    𝒄
    1.01
     genieten
    1.01
     وكان
    0.96
     wtedy
    0.95
     antiguas
    0.90
     ketika
    0.89
    Act Density 0.042%

    No Known Activations