INDEX
Negative Logits
U
0.51
a
0.49
a
0.49
statement
0.47
H
0.46
statements
0.46
regions
0.46
acceleration
0.46
ran
0.45
,
0.45
POSITIVE LOGITS
ктором
0.57
домаћин
0.55
شرطونو
0.52
ків
0.50
principios
0.50
経済
0.50
πί
0.50
彠
0.50
цима
0.50
낫
0.49
Activations Density 0.005%