INDEX
Explanations
high levels of emotional responses or expressions in a text
New Auto-Interp
Negative Logits
ÑįкÑģплÑĥаÑĤа
-0.25
оÑĢганиза
-0.25
инÑĦоÑĢма
-0.22
заÑıв
-0.21
имÑĥ
-0.20
пÑĢоÑĦеÑģÑģионалÑĮ
-0.20
елекÑĤÑĢон
-0.19
елек
-0.19
ÑįÑĦÑĦек
-0.18
ÑĦедеÑĢалÑĮ
-0.18
POSITIVE LOGITS
поба
0.17
itti
0.16
обо
0.15
ä»Ģ
0.15
Äįlov
0.14
µľ
0.14
ogl
0.14
beit
0.14
own
0.14
anza
0.14
Activations Density 0.018%