INDEX
Explanations
specific instances of concepts
New Auto-Interp
Negative Logits
물론
1.03
appalling
1.02
Ironically
0.95
even
0.93
zelfs
0.89
更是
0.89
오히려
0.88
homophobic
0.87
Admittedly
0.87
übrigens
0.87
POSITIVE LOGITS
某个
1.00
某一
0.95
または
0.95
Usually
0.90
किसी
0.89
suatu
0.88
通常
0.87
или
0.83
déterminé
0.83
одного
0.80
Activations Density 0.645%