INDEX
Explanations
raises an eyebrow or awareness
New Auto-Interp
Negative Logits
好
1.30
ко
1.16
يل
1.13
。
1.13
!
1.13
知道
1.12
ા
1.11
さん
1.10
聞
1.09
ام
1.08
POSITIVE LOGITS
ra
1.55
’
1.52
al
1.44
ot
1.42
ores
1.23
ir
1.14
iation
1.07
ol
1.05
or
1.03
oo
1.02
Activations Density 0.001%