INDEX
Explanations
punctuation marks, particularly quotation marks
New Auto-Interp
Negative Logits
İstinadlar
-0.94
“
-0.83
]=="
-0.82
DDG
-0.76
__.
-0.74
olph
-0.73
://"
-0.73
Maynard
-0.73
cortina
-0.72
."/
-0.71
POSITIVE LOGITS
(«
1.23
««
1.20
.«
1.20
,»
1.16
)»
1.15
?«
1.14
«
1.12
?»
1.11
«
1.06
!«
1.04
Activations Density 0.025%