INDEX
Explanations
foreign language prepositions
New Auto-Interp
Negative Logits
z
0.48
↵↵
0.46
er
0.42
'
0.42
e
0.41
um
0.40
0.39
0.37
o
0.37
')
0.34
POSITIVE LOGITS
in
0.47
מ
0.46
在
0.43
세계
0.41
abdom
0.40
这个
0.39
ری
0.37
这里
0.37
는
0.37
ใน
0.36
Activations Density 0.984%