INDEX
Explanations
expressing sentiment or opinion
New Auto-Interp
Negative Logits
atau
0.82
obeys
0.79
?
0.76
benar
0.75
berapa
0.75
truly
0.74
fulfills
0.73
dan
0.72
telah
0.71
fulfilled
0.71
POSITIVE LOGITS
担忧
0.85
клика
0.80
看法
0.77
自身の
0.76
sentiment
0.74
谴
0.72
blaming
0.71
emotional
0.68
بد
0.68
эмоциона
0.68
Activations Density 0.148%