INDEX
Explanations
offering advice and stating limitations
New Auto-Interp
Negative Logits
określ
0.31
or
0.27
ciertas
0.25
หรือ
0.25
↵↵
0.24
hoặc
0.24
específicas
0.24
foods
0.23
steaks
0.23
’
0.23
POSITIVE LOGITS
diesem
0.32
този
0.31
この
0.31
aquesta
0.30
এই
0.30
dieser
0.29
denna
0.29
wholeheartedly
0.28
this
0.28
этом
0.28
Activations Density 0.151%