INDEX
Negative Logits
p
0.90
jellem
0.89
jším
0.87
क्रम
0.83
Durch
0.81
чем
0.80
greet
0.79
しまい
0.79
automatic
0.78
accused
0.78
POSITIVE LOGITS
ം
1.23
roughness
1.14
provocative
1.11
Created
1.11
omission
1.10
रित
1.09
provocation
1.09
symmetry
1.06
د
1.06
ar
1.04
Activations Density 0.101%