INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    不仅
    -0.08
     infatti
    -0.08
     zwar
    -0.08
    -кон
    -0.08
    -0.07
    -0.07
    вин
    -0.07
     mushroom
    -0.07
    -0.07
    either
    -0.07
    POSITIVE LOGITS
    lama
    0.08
    גלית
    0.08
    .timeline
    0.07
     여부
    0.07
     هند
    0.07
     η
    0.07
    0.07
    967
    0.07
    wenza
    0.07
     zve
    0.07
    Act Density 0.018%

    No Known Activations