INDEX
Negative Logits
Dynasty
-0.07
Tom
-0.07
Loss
-0.07
Equality
-0.06
Kor
-0.06
電
-0.06
ağır
-0.06
province
-0.06
来た
-0.06
公司
-0.06
POSITIVE LOGITS
USE
0.07
trúc
0.06
eigen
0.06
(term
0.06
buttons
0.06
button
0.06
using
0.06
gotten
0.06
мож
0.06
itness
0.06
Activations Density 0.005%