INDEX
Negative Logits
531
-0.08
mutant
-0.07
upiter
-0.07
§§
-0.06
790
-0.06
459
-0.06
своей
-0.06
_site
-0.06
536
-0.06
perfectly
-0.06
POSITIVE LOGITS
encourage
0.11
encouraged
0.10
encouraging
0.08
encourages
0.08
encouragement
0.08
엔
0.07
discour
0.07
helpers
0.07
.Commands
0.07
dro
0.06
Activations Density 0.012%