INDEX
Negative Logits
有效
0.62
有效的
0.57
可靠
0.50
useful
0.48
Useful
0.48
berguna
0.48
美味
0.47
harmless
0.47
baddies
0.47
Valuable
0.47
POSITIVE LOGITS
cautious
0.77
exploratory
0.75
analytical
0.72
pragmatic
0.69
analytical
0.66
emphatic
0.66
prescriptive
0.66
intros
0.65
idealistic
0.64
contemplative
0.64
Activations Density 0.018%