INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    0.49
    <unused66>
    0.46
     پولیس
    0.45
    גן
    0.44
    zám
    0.44
     Keci
    0.43
    0.43
    ራል
    0.42
    0.42
    0.42
    POSITIVE LOGITS
    8
    0.57
     
    0.56
    9
    0.55
    using
    0.52
     exceeding
    0.49
    4
    0.49
    no
    0.49
    6
    0.49
    7
    0.49
     the
    0.47
    Act Density 0.077%

    No Known Activations