INDEX
    Explanations

    quotes and commas in lists

    New Auto-Interp
    Negative Logits
     くれ
    0.36
    خم
    0.36
     власть
    0.35
     باعث
    0.34
     nuclé
    0.34
     humanidad
    0.34
     vulve
    0.34
    overset
    0.34
     fenómenos
    0.34
     phénomène
    0.33
    POSITIVE LOGITS
     மற்றும்
    0.64
     and
    0.58
     ఇతర
    0.52
    and
    0.51
     &
    0.49
     etc
    0.49
    ,
    0.49
    es
    0.49
     और
    0.48
    และ
    0.47
    Act Density 0.200%

    No Known Activations