INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
    -0.07
     những
    -0.06
     Hughes
    -0.06
     være
    -0.06
     små
    -0.06
     seins
    -0.06
     لكن
    -0.06
     أن
    -0.06
     squeez
    -0.06
    POSITIVE LOGITS
     sistema
    0.31
     système
    0.14
    istema
    0.13
     Sistema
    0.12
     sistem
    0.08
     sistemi
    0.08
    制度
    0.07
     سیستم
    0.07
    .↵↵↵↵↵↵↵↵↵↵↵↵
    0.07
     réseau
    0.07
    Act Density 0.004%

    No Known Activations