INDEX
    Explanations

    Option 1 introduces specific choices

    New Auto-Interp
    Negative Logits
     ανθρώ
    0.52
     адам
    0.45
    不斷
    0.41
    hubung
    0.40
     människor
    0.40
     puissiez
    0.39
     willfully
    0.39
     mennesker
    0.39
    不断
    0.39
     irrepar
    0.39
    POSITIVE LOGITS
     вариант
    0.65
     one
    0.58
     вариан
    0.55
     варианты
    0.55
     Variante
    0.53
     варі
    0.52
     версия
    0.52
     گزینه
    0.50
     variantes
    0.50
     Optionen
    0.50
    Act Density 0.484%

    No Known Activations