INDEX
Negative Logits
iy
-0.08
た
-0.07
≤
-0.07
client
-0.06
Islam
-0.06
подав
-0.06
Rows
-0.06
Similarly
-0.06
plutôt
-0.06
jej
-0.06
POSITIVE LOGITS
ATURE
0.07
Osborne
0.07
age
0.07
impover
0.07
purported
0.06
ford
0.06
مبر
0.06
IB
0.06
ONY
0.06
umber
0.06
Activations Density 0.005%