INDEX
Negative Logits
Wir
-0.07
Her
-0.07
-0.07
görü
-0.07
sho
-0.07
Components
-0.07
-0.07
ülü
-0.07
Vid
-0.07
görül
-0.07
POSITIVE LOGITS
Caring
0.09
에게
0.09
else's
0.09
یان
0.09
दूस
0.08
सं
0.08
important
0.08
—including
0.08
caring
0.08
जन
0.08
Activations Density 0.033%