INDEX
    Explanations

    больше/выше

    New Auto-Interp
    Negative Logits
     keny
    -0.07
    roof
    -0.07
    crito
    -0.07
    imuth
    -0.07
     Nim
    -0.07
    ablemente
    -0.07
    icu
    -0.07
     olan
    -0.07
    ları
    -0.07
     bén
    -0.07
    POSITIVE LOGITS
    0.08
     jad
    0.08
     зв
    0.07
     wills
    0.07
     Jad
    0.07
     Peacock
    0.07
     நாட
    0.07
    ابد
    0.07
    afir
    0.07
     scheduling
    0.07
    Act Density 0.003%

    No Known Activations