INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     volver
    1.02
     vivió
    0.96
     ahorrar
    0.95
    0.92
    0.92
    0.91
    0.90
     producir
    0.89
     más
    0.89
     aceptar
    0.88
    POSITIVE LOGITS
    ENO
    0.73
    NES
    0.66
    SF
    0.65
    бари
    0.64
    خ
    0.63
     гости
    0.62
    ESTIC
    0.62
    elines
    0.61
    RED
    0.61
    WIRE
    0.61
    Act Density 0.001%

    No Known Activations