INDEX
Negative Logits
Doug
-0.08
Gh
-0.07
Aff
-0.06
Emily
-0.06
宅
-0.06
팀
-0.06
getClass
-0.06
ISP
-0.06
培
-0.06
меропри
-0.06
POSITIVE LOGITS
Treatment
0.07
_->
0.07
especial
0.07
financially
0.06
ž
0.06
�
0.06
chsel
0.06
method
0.06
Phương
0.06
sm
0.06
Activations Density 0.000%