INDEX
Negative Logits
impl
-0.08
bullshit
-0.08
clouds
-0.07
damn
-0.07
propre
-0.07
Jehova
-0.07
,而且
-0.07
justamente
-0.07
verdens
-0.07
-0.07
POSITIVE LOGITS
folgende
0.08
Tara
0.08
xv
0.08
irratti
0.08
189
0.08
panahon
0.08
contrast
0.08
十九
0.08
期間
0.08
время
0.07
Activations Density 0.032%