INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     др
    -0.07
    ewe
    -0.07
     embracing
    -0.07
     سب
    -0.07
    -0.07
     Kara
    -0.07
    tahun
    -0.06
    foto
    -0.06
    uke
    -0.06
    adata
    -0.06
    POSITIVE LOGITS
    .fill
    0.12
    .mutable
    0.07
    (fill
    0.07
     fill
    0.07
    0.07
    	fill
    0.07
    --------↵↵
    0.06
    .inner
    0.06
    .Start
    0.06
     fascism
    0.06
    Act Density 0.001%

    No Known Activations