INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    }
    0.25
     \\
    0.23
    )
    0.22
     \
    0.22
     are
    0.21
    	
    0.21
    				
    0.21
    re
    0.21
     =
    0.20
     could
    0.20
    POSITIVE LOGITS
    לי
    0.23
    нів
    0.23
    ци
    0.23
    اتی
    0.23
    ти
    0.23
    й
    0.22
    тов
    0.22
    ч
    0.22
    גי
    0.21
    нях
    0.21
    Act Density 5.899%

    No Known Activations