INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ;&#
    -0.07
     beled
    -0.07
    Titulo
    -0.07
    意见
    -0.07
    数学
    -0.06
    -0.06
     щодо
    -0.06
     Leer
    -0.06
     Moroccan
    -0.06
    antar
    -0.06
    POSITIVE LOGITS
     smartphone
    0.07
    лені
    0.06
     warehouses
    0.06
     photon
    0.06
    orge
    0.06
     inserting
    0.06
    атків
    0.06
    009
    0.06
     upgrades
    0.06
    %"↵
    0.06
    Act Density 0.409%

    No Known Activations