INDEX
    Explanations

    nhóm, lượng, thuộc, phổ

    New Auto-Interp
    Negative Logits
     грошы
    0.82
    0.75
     рэгістра
    0.74
     бясплатна
    0.72
     гуляць
    0.71
     бясплат
    0.70
    0.70
     აღმასრულებელი
    0.69
     паліты
    0.67
     თქვენ
    0.67
    POSITIVE LOGITS
     khí
    0.80
     tác
    0.76
     trong
    0.75
     các
    0.75
     phản
    0.75
     phân
    0.74
     khối
    0.73
     một
    0.71
     không
    0.70
     lượng
    0.69
    Act Density 0.002%

    No Known Activations