INDEX
    Explanations

    Numbers/Ratios

    New Auto-Interp
    Negative Logits
    "><
    -0.07
    луж
    -0.07
    )}↵↵
    -0.06
    }><
    -0.06
     \`
    -0.06
    /classes
    -0.06
    .Flag
    -0.06
    ]->
    -0.06
    	elif
    -0.06
     Categories
    -0.06
    POSITIVE LOGITS
    .Ph
    0.07
    INI
    0.07
     řekl
    0.06
    0.06
     fertile
    0.06
    ujemy
    0.06
    قال
    0.06
     Whilst
    0.06
     conver
    0.06
     Hük
    0.06
    Act Density 0.010%

    No Known Activations