INDEX
Explanations
references to social issues and disparities
New Auto-Interp
Negative Logits
非常的
-1.05
Whilst
-0.82
disini
-0.81
میباشد
-0.81
Whilst
-0.80
の為
-0.80
dimana
-0.80
十分的
-0.79
慢慢的
-0.78
данного
-0.77
POSITIVE LOGITS
freilich
1.12
—“
0.84
—
0.83
—"
0.80
—
0.78
едва
0.77
ècie
0.76
guère
0.76
—”
0.75
──
0.72
Activations Density 1.938%