INDEX
Negative Logits
onte
0.41
ĺ
0.40
ococ
0.39
Ꮔ
0.39
gifter
0.38
iéndose
0.38
iremos
0.38
warrants
0.38
नागल
0.38
邸
0.38
POSITIVE LOGITS
UU
0.58
U
0.58
UF
0.56
UW
0.55
UB
0.54
Uw
0.54
uu
0.53
UM
0.52
u
0.51
UH
0.50
Activations Density 0.069%
onte
ĺ
ococ
Ꮔ
gifter
iéndose
iremos
warrants
नागल
邸
UU
U
UF
UW
UB
Uw
uu
UM
u
UH