INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Samuel
    -0.07
     pow
    -0.06
     Frances
    -0.06
    .values
    -0.06
    _userdata
    -0.06
    pie
    -0.06
    .↵↵↵↵↵↵
    -0.06
     klas
    -0.06
    _Class
    -0.06
     bugs
    -0.06
    POSITIVE LOGITS
     socioeconomic
    0.07
    ~":"
    0.07
    екту
    0.07
     unequal
    0.07
     kot
    0.07
    ّم
    0.06
     joked
    0.06
    öh
    0.06
    -campus
    0.06
     Solver
    0.06
    Act Density 0.101%

    No Known Activations