INDEX
Explanations
identifying is/is not statements
New Auto-Interp
Negative Logits
ake
0.41
ulnerable
0.40
ung
0.38
adaan
0.37
讳
0.36
patterns
0.35
UNG
0.35
ഈ
0.35
लोगों
0.35
দল
0.35
POSITIVE LOGITS
является
0.49
merupakan
0.48
使用的是
0.47
bukanlah
0.47
他是
0.47
являются
0.46
是一个
0.46
เป็น
0.46
她是
0.45
它是
0.45
Activations Density 0.057%