INDEX
Explanations
phrases and terms that indicate conflict or struggle
New Auto-Interp
Negative Logits
€”
-0.69
mdash
-0.64
———
-0.59
〜
-0.57
َّ
-0.54
���
-0.54
daß
-0.53
\'
-0.50
----
-0.50
”—
-0.50
POSITIVE LOGITS
–
2.02
–,
1.78
–
1.08
–)
1.03
-,
1.01
.–
0.94
)–
0.89
,–
0.88
––––
0.81
-.
0.76
Activations Density 0.249%