INDEX
Negative Logits
TRANSFER
-0.08
송
-0.08
ży
-0.07
Bun
-0.07
pare
-0.07
Se
-0.07
вар
-0.07
Const
-0.07
静
-0.07
=e
-0.07
POSITIVE LOGITS
UK
0.12
UK
0.09
Kingdom
0.08
uk
0.08
EU
0.07
く
0.07
British
0.07
TableRow
0.07
regime
0.07
Vk
0.06
Activations Density 0.010%