INDEX
Explanations
programmed refusal of requests
New Auto-Interp
Negative Logits
末
0.59
με
0.55
িত্য
0.54
或者
0.53
即便
0.52
DVRIP
0.52
Despatx
0.50
集
0.50
其
0.50
특
0.48
POSITIVE LOGITS
sorry
0.79
glad
0.79
afraid
0.69
grateful
0.69
proud
0.64
heartbroken
0.64
not
0.63
am
0.63
trying
0.63
akan
0.63
Activations Density 0.136%