INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     twilight
    -0.07
    和尚
    -0.07
    יח
    -0.07
     scientific
    -0.07
    جبهة
    -0.07
    anga
    -0.07
    china
    -0.07
     sideways
    -0.07
    uars
    -0.06
    .virtual
    -0.06
    POSITIVE LOGITS
    approved
    0.08
    ,Q
    0.07
    missions
    0.07
    Modification
    0.07
     свои
    0.07
     improvements
    0.07
    0.07
     approval
    0.07
    :m
    0.06
    )").
    0.06
    Act Density 0.012%

    No Known Activations