INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     semplic
    0.77
    Tc
    0.62
     absence
    0.61
     sencillo
    0.61
     ngắn
    0.61
     eenvoudig
    0.60
    absence
    0.58
     ignorance
    0.57
     ignorant
    0.57
     ineffective
    0.57
    POSITIVE LOGITS
     larger
    1.21
    更高
    1.21
    更大
    1.16
     bigger
    1.13
    更大的
    1.13
     größere
    1.08
     større
    1.05
     beyond
    1.04
    更高的
    1.04
    larger
    1.03
    Act Density 2.508%

    No Known Activations