INDEX
Negative Logits
reflections
-0.08
grooming
-0.08
روا
-0.08
多久
-0.07
jargon
-0.07
Cu
-0.07
(review
-0.07
Rä
-0.07
Denim
-0.07
小
-0.07
POSITIVE LOGITS
obedient
0.08
essel
0.08
departing
0.08
ಇಲಾಖೆ
0.08
Unary
0.08
intersects
0.08
crédit
0.08
ಇಲಾಖ
0.07
unary
0.07
dishonest
0.07
Activations Density 0.001%