INDEX
Negative Logits
))))
-0.07
ˮ
-0.07
uters
-0.07
侵害
-0.07
ﭫ
-0.07
»,
-0.07
Vu
-0.07
メ
-0.06
公用
-0.06
amate
-0.06
POSITIVE LOGITS
Comm
0.07
bombs
0.07
CENT
0.07
איתו
0.07
major
0.07
corn
0.07
.Pay
0.06
Eff
0.06
[obj
0.06
std
0.06
Activations Density 0.009%