INDEX
    Explanations

    Non-English languages

    New Auto-Interp
    Negative Logits
    סך
    -0.08
     בהחלט
    -0.07
    bek
    -0.07
    CALE
    -0.07
    .inventory
    -0.07
     teenager
    -0.07
     reckon
    -0.07
     keen
    -0.07
    前瞻
    -0.07
    .GUI
    -0.06
    POSITIVE LOGITS
    	format
    0.08
     Doll
    0.08
     earm
    0.08
    уп
    0.07
    							
    0.07
    0.07
     elt
    0.07
     lockdown
    0.07
    important
    0.07
    𝒕
    0.07
    Act Density 0.050%

    No Known Activations