INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .transform
    -0.07
    battle
    -0.06
    +'/'+
    -0.06
    -0.06
     scanning
    -0.06
    dění
    -0.06
    ')),↵
    -0.06
    には
    -0.06
     bev
    -0.06
    ,n
    -0.06
    POSITIVE LOGITS
     Tig
    0.07
     sebagai
    0.07
     이야기
    0.07
    werp
    0.07
     حسين
    0.06
     iVar
    0.06
     زیادی
    0.06
    0.06
     계속
    0.06
     pueda
    0.06
    Act Density 0.030%

    No Known Activations