INDEX
Explanations
normalization of numerical values
New Auto-Interp
Negative Logits
eighteen
0.65
Dragon
0.65
сх
0.64
Magic
0.64
۱۵
0.61
eleven
0.60
seventeen
0.59
Indie
0.59
ab
0.59
Tor
0.58
POSITIVE LOGITS
године
1.00
effetto
0.92
žno
0.89
Radians
0.89
ouwd
0.89
Giá
0.87
obesidad
0.85
godine
0.85
中华
0.84
<unused632>
0.82
Activations Density 0.033%