INDEX
Explanations
references to political decisions and candidate dynamics
New Auto-Interp
Negative Logits
なども
-0.64
hẳn
-0.64
などは
-0.61
chiar
-0.60
محفوظة
-0.60
oredCriteria
-0.59
zelfs
-0.59
كومونز
-0.58
ویکیپدیا
-0.58
など
-0.58
POSITIVE LOGITS
damn
1.01
dammit
0.99
goddamn
0.97
fucking
0.94
damned
0.91
DAMN
0.85
damn
0.81
fucking
0.79
freakin
0.78
fuckin
0.78
Activations Density 0.502%