INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     goodbye
    -0.07
     semaphore
    -0.06
    (Type
    -0.06
     конца
    -0.06
    Mode
    -0.06
    -plan
    -0.06
    -0.06
     oily
    -0.06
    azard
    -0.06
    oid
    -0.06
    POSITIVE LOGITS
     arthritis
    0.08
    ホテル
    0.07
    0.06
    (article
    0.06
    reducers
    0.06
     Vita
    0.06
    BASE
    0.06
    ////////////////////////////////////////////////////////////////////////////////↵
    0.06
    0.06
    ]:↵↵
    0.06
    Act Density 0.002%

    No Known Activations