INDEX
Explanations
introducing categories or examples
New Auto-Interp
Negative Logits
،
0.34
,
0.27
،
0.22
、
0.21
(
0.21
၊
0.19
(),
0.19
,.
0.19
0.19
_
0.19
POSITIVE LOGITS
लेकिन
0.27
लेकिन
0.25
позволя
0.23
குறிப்பாக
0.23
although
0.23
क्योंकि
0.22
although
0.22
જેમાં
0.22
allowing
0.22
которое
0.22
Activations Density 1.556%