INDEX
Explanations
finds tokens used for emphasis or section/heading formatting (markdown-style emphasis and similar formatting markers).
New Auto-Interp
Negative Logits
altres
0.26
sommige
0.22
aşağıdaki
0.21
nedenle
0.21
سایر
0.21
dalších
0.21
whatnot
0.21
neler
0.20
bestimmte
0.20
etcétera
0.20
POSITIVE LOGITS
これは
0.43
это
0.40
This
0.39
这是一个
0.37
これは
0.37
Это
0.36
This
0.36
这是
0.36
這個
0.35
Đây
0.35
Activations Density 3.001%