INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     gesamte
    1.02
     entsprechende
    0.96
     понятие
    0.94
    ведение
    0.89
     чувство
    0.89
    личие
    0.89
     neuest
    0.88
    ресенье
    0.87
     ganze
    0.86
     vrijeme
    0.86
    POSITIVE LOGITS
     вариант
    0.81
    мулятор
    0.71
    гноз
    0.68
     опыт
    0.66
     nodos
    0.65
    писок
    0.65
     сервис
    0.63
     ম্যানেজার
    0.63
    ский
    0.63
    мий
    0.62
    Act Density 0.017%

    No Known Activations