INDEX
Negative Logits
ests
-0.19
Äįer
-0.15
ugu
-0.15
rts
-0.15
ouver
-0.15
rink
-0.14
rouw
-0.14
Ļ
-0.14
odb
-0.14
burg
-0.14
POSITIVE LOGITS
arius
0.23
onn
0.22
onna
0.21
rece
0.20
quan
0.19
awn
0.19
evin
0.18
arious
0.18
elyn
0.18
iyon
0.18
Activations Density 0.122%