INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ಕ್ರ
    0.51
     зла
    0.47
     שנים
    0.47
     grievous
    0.46
    ڑ
    0.46
    ਣਾ
    0.46
    大きさ
    0.46
     ஆண்டுகள்
    0.45
     nerveux
    0.45
     خواہش
    0.45
    POSITIVE LOGITS
     pre
    0.52
     Before
    0.51
     before
    0.51
     prepare
    0.50
     initial
    0.49
     onboarding
    0.48
     input
    0.47
     preparing
    0.46
     prepared
    0.45
     during
    0.44
    Act Density 0.077%

    No Known Activations