INDEX
Explanations
helping or allowing people/users
New Auto-Interp
Negative Logits
這個
0.47
ется
0.46
випадку
0.44
пожалуйста
0.43
ি
0.42
方法は
0.42
кажется
0.42
謝謝
0.42
谢谢
0.42
П
0.41
POSITIVE LOGITS
人们
0.75
policymakers
0.72
utilisateurs
0.70
users
0.68
netizens
0.67
사람들이
0.66
ユーザー
0.66
människor
0.64
人々
0.63
ప్రజ
0.63
Activations Density 0.017%