INDEX
Explanations
taking action or responsibility
New Auto-Interp
Negative Logits
détecter
0.47
بحيث
0.40
ᥣ
0.38
中です
0.38
改
0.37
worsened
0.37
竣
0.37
verlassen
0.36
détect
0.35
щі
0.35
POSITIVE LOGITS
honours
0.52
Honours
0.50
licences
0.50
aboard
0.48
প্রয়োজনীয়
0.47
fertilisers
0.47
organisations
0.45
onboard
0.45
tyres
0.45
rumours
0.45
Activations Density 0.001%