INDEX
Negative Logits
onchange
-0.08
gnu
-0.08
uid
-0.07
hü
-0.07
husbands
-0.07
ре
-0.07
reshape
-0.07
stwa
-0.07
voraus
-0.07
purpose
-0.07
POSITIVE LOGITS
Weapons
0.08
Heathrow
0.08
вечером
0.08
cock
0.08
корпуса
0.07
sezon
0.07
britann
0.07
Proms
0.07
én
0.07
Subway
0.07
Activations Density 0.002%