INDEX
Explanations
Option 1 introduces specific choices
New Auto-Interp
Negative Logits
ανθρώ
0.52
адам
0.45
不斷
0.41
hubung
0.40
människor
0.40
puissiez
0.39
willfully
0.39
mennesker
0.39
不断
0.39
irrepar
0.39
POSITIVE LOGITS
вариант
0.65
one
0.58
вариан
0.55
варианты
0.55
Variante
0.53
варі
0.52
версия
0.52
گزینه
0.50
variantes
0.50
Optionen
0.50
Activations Density 0.484%