INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     thao
    -0.08
    าณ
    -0.08
     thorn
    -0.08
    予約
    -0.08
    embo
    -0.07
    extent
    -0.07
    ilte
    -0.07
     bois
    -0.07
    prowadz
    -0.07
    ledning
    -0.07
    POSITIVE LOGITS
     asleep
    0.11
     Falling
    0.09
    drop
    0.09
     hopper
    0.08
     oatmeal
    0.08
     falling
    0.08
     Fall
    0.08
    0.08
    /drop
    0.08
     tumble
    0.08
    Act Density 0.027%

    No Known Activations