INDEX
Explanations
names followed by technical terms
New Auto-Interp
Negative Logits
。
-1.06
都是
-0.96
“
-0.90
突然
-0.88
.'
-0.84
正式
-0.84
獲得
-0.83
க்கும்
-0.83
.’
-0.80
相比
-0.80
POSITIVE LOGITS
ův
1.19
ian
1.10
theorem
1.01
féle
0.98
inför
0.97
adm
0.96
Theorem
0.90
posthum
0.90
hian
0.89
Compli
0.88
Activations Density 0.151%