INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    vh
    -0.08
    .om
    -0.08
     അന്ത
    -0.08
    Examples
    -0.07
     liberty
    -0.07
     vh
    -0.07
    ',"
    -0.07
    .je
    -0.07
     Examples
    -0.07
    .ta
    -0.07
    POSITIVE LOGITS
    ushers
    0.08
     لمدة
    0.07
    0.07
    護士
    0.07
     substances
    0.07
     walkers
    0.07
     bacteria
    0.07
    0.07
     buss
    0.07
     walks
    0.07
    Act Density 0.006%

    No Known Activations