INDEX
Negative Logits
caters
-0.08
tad
-0.08
Richard
-0.08
Richard
-0.08
Ca
-0.08
MES
-0.08
menc
-0.08
Ca
-0.07
Geneva
-0.07
Morris
-0.07
POSITIVE LOGITS
why
0.09
dém
0.08
rationale
0.07
为什么
0.07
što
0.07
Lia
0.07
aj
0.07
volen
0.07
为何
0.07
pourquoi
0.07
Activations Density 0.009%