INDEX
    Explanations

    idioms and slang

    New Auto-Interp
    Negative Logits
     enforcement
    -0.07
     Vor
    -0.07
     trainer
    -0.06
    так
    -0.06
    GLOSS
    -0.06
     scholar
    -0.06
     diarrhea
    -0.06
    -0.06
     ordering
    -0.06
     vitam
    -0.06
    POSITIVE LOGITS
     mesmo
    0.06
    高中
    0.06
     journée
    0.06
     Mush
    0.06
    .low
    0.06
     mimeType
    0.06
    eel
    0.06
    公路
    0.06
    0.06
    …↵↵↵↵
    0.06
    Act Density 0.037%

    No Known Activations