INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     روش
    -0.07
    -0.07
     perfected
    -0.07
     pillows
    -0.07
    农业
    -0.07
     přím
    -0.07
     reproduce
    -0.07
    needs
    -0.07
     situace
    -0.06
     teknoloj
    -0.06
    POSITIVE LOGITS
     chat
    0.16
     chatting
    0.12
     Chat
    0.10
    (Chat
    0.09
    _chat
    0.08
     chatter
    0.08
    .Chat
    0.08
    Chat
    0.08
     chats
    0.07
     cyt
    0.07
    Act Density 0.020%

    No Known Activations