INDEX
Negative Logits
consolid
-0.08
karto
-0.08
.kernel
-0.08
Recycler
-0.08
ampl
-0.08
elabor
-0.08
smash
-0.07
ెక
-0.07
debris
-0.07
numerosas
-0.07
POSITIVE LOGITS
拒
0.12
refusal
0.12
refusing
0.12
धार्मिक
0.11
رفض
0.11
conscientious
0.11
refuses
0.10
religi
0.10
违反
0.10
unwilling
0.10
Activations Density 0.031%