INDEX
Explanations
confirming language abilities, of course
New Auto-Interp
Negative Logits
いて
0.41
んば
0.40
혹
0.40
*((
0.39
的东西
0.38
竟
0.37
阅读
0.37
وني
0.37
来
0.37
组织的
0.37
POSITIVE LOGITS
당연
0.68
natürlich
0.61
當然
0.60
oczywiście
0.60
tentunya
0.57
évidemment
0.57
tentu
0.56
当然
0.55
obviously
0.55
Конечно
0.55
Activations Density 0.013%