INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     zig
    -0.08
    -0.07
    heartbeat
    -0.07
    éd
    -0.07
    .wait
    -0.07
     Ż
    -0.07
     inund
    -0.07
     ומת
    -0.07
     grands
    -0.06
     vượt
    -0.06
    POSITIVE LOGITS
    _OUTPUT
    0.07
    BL
    0.07
    	config
    0.07
    BA
    0.07
     Changed
    0.07
    	remove
    0.06
    0.06
    FS
    0.06
    تنسي
    0.06
     WALL
    0.06
    Act Density 0.004%

    No Known Activations