INDEX
Explanations
easiest, simplest, or most standard option
New Auto-Interp
Negative Logits
因此
0.36
बताना
0.36
ības
0.35
不再
0.34
यामुळे
0.33
こうした
0.32
বাহুল্য
0.32
Components
0.32
describe
0.31
Unlike
0.31
POSITIVE LOGITS
preferred
0.69
preferable
0.68
préférable
0.66
الأكثر
0.66
是最
0.64
найбільш
0.64
सबसे
0.63
наиболее
0.63
가장
0.63
সবচেয়ে
0.63
Activations Density 0.281%