INDEX
Negative Logits
political
0.47
grat
0.45
你应该
0.45
说
0.44
political
0.44
सारी
0.44
Carol
0.44
es
0.43
spolit
0.43
ह
0.43
POSITIVE LOGITS
край
0.52
ミニ
0.48
obey
0.44
textArea
0.44
стандарт
0.44
0.44
graphically
0.43
ភេទ
0.43
ゾーン
0.43
न्यूनतम
0.42
Activations Density 0.003%