INDEX
    Explanations

    person/human

    New Auto-Interp
    Negative Logits
    andu
    -0.08
     Bi
    -0.08
     Comprehensive
    -0.08
    Checkpoint
    -0.07
     makanan
    -0.07
     peppermint
    -0.07
    _checkpoint
    -0.07
     vergadering
    -0.07
    Sab
    -0.07
     சம்ப
    -0.07
    POSITIVE LOGITS
    કરણ
    0.08
    ẩn
    0.07
     remin
    0.07
    0.07
    Θ
    0.07
    പ്പെടുത്ത
    0.07
    ize
    0.07
    0.07
    പ്പെടുത്തിയ
    0.07
     nurture
    0.07
    Act Density 0.002%

    No Known Activations