INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Stand
    -0.08
    Show
    -0.08
    Setup
    -0.08
     setup
    -0.08
    Note
    -0.07
    Max
    -0.07
    Banner
    -0.07
    Let
    -0.07
    Logo
    -0.07
    Prem
    -0.07
    POSITIVE LOGITS
     lại
    0.09
     واپس
    0.09
     palaut
    0.08
     calle
    0.08
    tiens
    0.08
     puisse
    0.08
    	cout
    0.08
     заменить
    0.08
     ընթաց
    0.08
     насел
    0.08
    Act Density 0.002%

    No Known Activations