INDEX
Explanations
possessiion or availability
New Auto-Interp
Negative Logits
elbows
0.47
lover
0.46
curiosity
0.43
there
0.42
fråga
0.42
girlfriend
0.42
nog
0.41
warranty
0.41
horn
0.41
Och
0.41
POSITIVE LOGITS
Detailed
0.54
Become
0.53
を用意
0.52
become
0.50
விரி
0.50
ENER
0.49
ayena
0.48
embangkan
0.48
专门
0.48
подробно
0.47
Activations Density 0.004%