INDEX
Negative Logits
.Pay
-0.08
dice
-0.08
fueling
-0.08
ificial
-0.08
intervals
-0.07
pesticide
-0.07
determin
-0.07
舔
-0.07
.hot
-0.07
.interval
-0.07
POSITIVE LOGITS
attung
0.09
-type
0.08
Unsupported
0.08
кос
0.08
perpendicular
0.08
antis
0.08
القط
0.08
Anti
0.08
방
0.07
AUX
0.07
Activations Density 0.002%