INDEX
Negative Logits
capability
-0.07
gence
-0.07
Ev
-0.07
othy
-0.07
drowning
-0.07
Army
-0.07
jiang
-0.06
beginnings
-0.06
latex
-0.06
Namespace
-0.06
POSITIVE LOGITS
slim
0.07
larla
0.06
Чи
0.06
pute
0.06
Addiction
0.06
xml
0.06
Chandler
0.06
_lm
0.06
.DOWN
0.06
_ABI
0.06
Activations Density 0.008%