INDEX
    Explanations

    hope/desire

    New Auto-Interp
    Negative Logits
    ethol
    -0.07
    יות
    -0.07
     असून
    -0.07
    927
    -0.07
    וצר
    -0.07
    Robert
    -0.07
    -0.07
     trường
    -0.07
     در
    -0.06
     antenna
    -0.06
    POSITIVE LOGITS
     Liv
    0.08
    います
    0.08
    	at
    0.08
    liv
    0.07
     unum
    0.07
    Dear
    0.07
     perd
    0.07
    Dense
    0.07
    าญ
    0.07
     diversify
    0.07
    Act Density 0.092%

    No Known Activations