INDEX
Negative Logits
ER
1.64
狱
1.36
数据
1.28
pamoja
1.28
bar
1.27
chén
1.27
ούς
1.27
bains
1.23
t
1.22
ﺃ
1.22
POSITIVE LOGITS
ن
1.93
нской
1.66
いて
1.44
nte
1.44
يج
1.41
н
1.39
ра
1.38
ের
1.37
ро
1.37
CORPER
1.36
Activations Density 0.001%
ER
狱
数据
pamoja
bar
chén
ούς
bains
t
ﺃ
ن
нской
いて
nte
يج
н
ра
ের
ро
CORPER