INDEX
Negative Logits
ある
1.91
م
1.88
大
1.84
什么
1.80
이었다
1.80
이었
1.72
节省
1.70
ת
1.70
roadblocks
1.63
我
1.63
POSITIVE LOGITS
n
2.27
am
1.98
੍ਹ
1.68
l
1.65
stove
1.63
jacke
1.55
nivel
1.48
enquête
1.48
straction
1.45
ufl
1.45
Activations Density 0.020%
ある
م
大
什么
이었다
이었
节省
ת
roadblocks
我
n
am
੍ਹ
l
stove
jacke
nivel
enquête
straction
ufl