INDEX
Explanations
common measure, usual suspects, primary way
New Auto-Interp
Negative Logits
0.22
0.19
0.19
0.19
0.18
0.18
zowel
0.18
=
0.18
Moż
0.17
евре
0.17
POSITIVE LOGITS
conundrum
0.24
predicament
0.23
dilemma
0.21
contender
0.20
idea
0.19
way
0.19
absurdity
0.19
crux
0.18
ailment
0.18
idiom
0.18
Activations Density 0.648%