INDEX
Negative Logits
fat
-0.08
ense
-0.07
_optimizer
-0.07
hollow
-0.07
optimizer
-0.07
ulot
-0.07
-fat
-0.07
onge
-0.07
muffins
-0.07
-orange
-0.07
POSITIVE LOGITS
plung
0.09
oath
0.08
Ser
0.08
prophecy
0.08
drove
0.08
proclamation
0.08
ಅ
0.08
spoke
0.08
�
0.08
ಾಲಯ
0.08
Activations Density 0.001%