INDEX
Explanations
negations and expressions of absence
New Auto-Interp
Negative Logits
#+#
-0.85
spéciaux
-0.78
feveral
-0.77
Theſe
-0.77
feroit
-0.76
Monfieur
-0.76
ſeveral
-0.75
faſt
-0.75
mourut
-0.74
whoſe
-0.73
POSITIVE LOGITS
não
1.25
not
1.07
Não
1.06
Não
1.06
não
0.99
не
0.97
nicht
0.95
לא
0.94
non
0.91
δεν
0.90
Activations Density 0.090%