INDEX
Negative Logits
ு
-0.08
Carla
-0.08
472
-0.07
rape
-0.07
-0.07
beneath
-0.07
姐姐
-0.07
fles
-0.07
highs
-0.07
egl
-0.07
POSITIVE LOGITS
-cost
0.12
costes
0.10
બચ
0.10
비용
0.09
成本
0.09
ખર્ચ
0.09
cost
0.09
बच
0.09
incurred
0.09
savings
0.08
Activations Density 0.033%