INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Router
    -0.09
    inado
    -0.08
     цвета
    -0.08
     Ilha
    -0.08
     màu
    -0.08
    OLOR
    -0.08
     Router
    -0.07
     sponge
    -0.07
     Fos
    -0.07
     listened
    -0.07
    POSITIVE LOGITS
    ді
    0.07
    ben
    0.07
    lge
    0.07
     umsebenzi
    0.07
    0.07
    üü
    0.07
     التق
    0.07
     almind
    0.07
     куст
    0.07
    /train
    0.07
    Act Density 0.105%

    No Known Activations