INDEX
Negative Logits
\|,
0.88
addition
0.88
якості
0.84
middels
0.80
některé
0.80
tillegg
0.75
niektórych
0.75
países
0.74
addition
0.74
někter
0.73
POSITIVE LOGITS
entier
0.77
implications
0.77
intentions
0.72
detail
0.71
manne
0.70
details
0.70
तरीके
0.69
detail
0.67
Details
0.66
details
0.66
Activations Density 0.080%