INDEX
Explanations
sentence endings, polite verbs。
New Auto-Interp
Negative Logits
andom
0.70
exacerbated
0.63
+,
0.61
[,
0.60
wise
0.59
ercise
0.54
چی
0.54
+,
0.54
!,
0.53
AKA
0.52
POSITIVE LOGITS
。
1.96
。「
1.50
。"
1.48
。(
1.47
。.
1.44
。」
1.44
。\
1.43
。(
1.42
。",
1.36
。</
1.33
Activations Density 0.004%