INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    antwoord
    -0.08
     dace
    -0.08
     yorum
    -0.08
    _MAIN
    -0.08
     поведения
    -0.08
    <|start|>
    -0.08
    minton
    -0.08
    naeth
    -0.08
     reprim
    -0.08
     tiko
    -0.08
    POSITIVE LOGITS
     список
    0.18
    名单
    0.17
    列表
    0.16
     목록
    0.14
     списка
    0.14
     list
    0.13
     lijst
    0.13
     सूची
    0.13
     তাল
    0.13
     പട്ട
    0.13
    Act Density 0.038%

    No Known Activations