INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    <unused328>
    0.50
    رداری
    0.47
    <unused475>
    0.47
    UAGE
    0.46
    <unused671>
    0.46
     nových
    0.46
    FreeBuf
    0.45
    <unused389>
    0.44
    کومت
    0.44
    <unused406>
    0.44
    POSITIVE LOGITS
    1
    0.68
    2
    0.56
     #
    0.53
    3
    0.51
     III
    0.50
    0.49
    4
    0.48
     
    0.47
     th
    0.45
    5
    0.44
    Act Density 0.048%

    No Known Activations