INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    epsilon
    -0.08
     bas
    -0.07
    _wrapper
    -0.06
     بشر
    -0.06
    _bn
    -0.06
     FR
    -0.06
    ")↵↵
    -0.06
    نسية
    -0.06
    ネル
    -0.06
    stry
    -0.06
    POSITIVE LOGITS
     i
    0.15
     dei
    0.10
    ,i
    0.08
    'i
    0.08
    .Border
    0.07
    _profit
    0.07
     Οι
    0.07
    ;i
    0.07
    (top
    0.07
    _iterations
    0.07
    Act Density 0.014%

    No Known Activations