INDEX
Explanations
politics, economics, systems
New Auto-Interp
Negative Logits
een
0.89
the
0.88
'
0.87
(
0.86
0.85
a
0.83
isang
0.75
-
0.72
*
0.72
=
0.71
POSITIVE LOGITS
及
1.40
也
1.34
以及
1.32
信息
1.32
可以
1.32
进行
1.21
可
1.19
都是
1.16
的
1.16
逐渐
1.15
Activations Density 0.097%