INDEX
Negative Logits
vocab
-0.09
groceries
-0.09
clips
-0.08
еред
-0.08
Aim
-0.08
закреп
-0.08
pack
-0.08
vocabulary
-0.08
aiming
-0.08
حفظ
-0.08
POSITIVE LOGITS
-hidden
0.09
隐藏
0.09
hidden
0.08
戴
0.08
hidden
0.08
awak
0.08
invisible
0.08
מת
0.08
awakened
0.08
Waiting
0.08
Activations Density 0.001%