INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.09
     pente
    -0.08
     prefeito
    -0.08
     тек
    -0.07
     tf
    -0.07
    .Object
    -0.07
     fragile
    -0.07
    	tf
    -0.07
     glac
    -0.07
    insp
    -0.07
    POSITIVE LOGITS
     BED
    0.08
     llu
    0.08
    112
    0.08
    本科
    0.08
    olu
    0.08
    0.07
     sushi
    0.07
     prácticamente
    0.07
     bodas
    0.07
     рестора
    0.07
    Act Density 0.005%

    No Known Activations