INDEX
Explanations
offering advice and disclaimers
New Auto-Interp
Negative Logits
முய
0.45
嘗試
0.45
volatiles
0.44
অবগত
0.43
ይቀ
0.42
尝试
0.42
នូវ
0.42
முயற்சி
0.42
tenté
0.41
यत्त
0.41
POSITIVE LOGITS
recommend
0.64
recommending
0.60
anbef
0.55
urge
0.54
recommande
0.54
鼓励
0.53
empfe
0.53
鼓勵
0.53
encourage
0.52
recomand
0.52
Activations Density 0.004%