INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     likes
    0.72
     ignorance
    0.70
     a
    0.70
     an
    0.67
     myopia
    0.66
     nedir
    0.65
     beautiful
    0.64
     simply
    0.64
    是多少
    0.63
     Likes
    0.62
    POSITIVE LOGITS
     الذي
    0.93
     التي
    0.92
     التى
    0.90
     contender
    0.83
     ಕಾರಣ
    0.80
     членом
    0.79
    ที่
    0.78
    ที่จะ
    0.76
     που
    0.75
    whose
    0.74
    Act Density 0.004%

    No Known Activations