INDEX
Negative Logits
Nin
-0.08
imperial
-0.07
Gill
-0.07
handelt
-0.07
Neville
-0.07
informiert
-0.07
sued
-0.07
KS
-0.07
abl
-0.07
Hughes
-0.07
POSITIVE LOGITS
gen
0.08
wards
0.08
ultima
0.07
bidden
0.07
iles
0.07
आम
0.07
stead
0.07
388
0.07
Tor
0.07
ol
0.07
Activations Density 0.006%