INDEX
Negative Logits
ρίζ
-0.07
_Att
-0.07
Rel
-0.06
φερ
-0.06
tří
-0.06
전
-0.06
.Cont
-0.06
_SUPER
-0.06
Fle
-0.06
Twe
-0.06
POSITIVE LOGITS
York
0.18
York
0.11
NY
0.11
york
0.11
YORK
0.10
yny
0.09
Yorker
0.09
NY
0.08
Ny
0.08
London
0.08
Activations Density 0.012%