INDEX
Negative Logits
Component
-0.08
609
-0.06
_backup
-0.06
alf
-0.06
POST
-0.06
TRAIN
-0.06
(post
-0.06
territor
-0.06
appeal
-0.06
persu
-0.06
POSITIVE LOGITS
.h
0.08
.hpp
0.07
そう
0.07
双
0.06
cerer
0.06
ひ
0.06
pierws
0.06
zeň
0.06
无码
0.06
underscore
0.06
Activations Density 0.003%