INDEX
Negative Logits
ت
1.85
تهم
1.62
demean
1.48
т
1.47
averaging
1.46
й
1.43
น์
1.40
是很
1.38
是从
1.33
downside
1.32
POSITIVE LOGITS
een
2.28
ní
1.82
卦
1.76
ுக
1.73
्स
1.71
cle
1.70
во
1.69
ো
1.67
ieth
1.55
eenth
1.55
Activations Density 0.313%
ت
تهم
demean
т
averaging
й
น์
是很
是从
downside
een
ní
卦
ுக
्स
cle
во
ো
ieth
eenth