INDEX
Explanations
articles and determiners in German
New Auto-Interp
Negative Logits
fevere
-1.01
purpoſe
-0.98
Monfieur
-0.98
Majefty
-0.97
myſelf
-0.97
houſe
-0.95
pleaſure
-0.92
laſt
-0.90
Houſe
-0.90
ſtate
-0.90
POSITIVE LOGITS
Die
1.55
Die
1.50
die
1.24
die
0.97
der
0.89
DIE
0.84
DIE
0.78
das
0.77
ihre
0.71
The
0.70
Activations Density 0.080%