INDEX
Explanations
participate, submit, university, admire
New Auto-Interp
Negative Logits
signifikan
1.13
dapat
1.09
+
1.09
harus
1.08
sering
1.08
akan
1.08
vocab
1.06
niet
1.05
nicht
1.04
conjunct
1.02
POSITIVE LOGITS
《
1.66
大
1.51
新
1.44
五
1.36
一
1.35
太
1.35
古
1.33
白
1.32
三
1.31
我
1.30
Activations Density 0.052%