INDEX
Explanations
other language conjunctions
New Auto-Interp
Negative Logits
时间和
0.24
0.19
entweder
0.19
två
0.19
↓↓
0.19
有两个
0.18
Moreover
0.18
했고
0.18
Both
0.18
었고
0.18
POSITIVE LOGITS
अन्य
0.60
অন্যান্য
0.59
других
0.59
ఇతర
0.59
other
0.57
другие
0.56
autres
0.55
подобные
0.53
andere
0.52
その他の
0.52
Activations Density 0.484%