INDEX
Negative Logits
YES
0.45
کمک
0.45
हाय
0.43
HEALTH
0.41
我会
0.41
مساعد
0.40
新建
0.40
ogenes
0.40
असल्यास
0.40
ആരോഗ്യ
0.39
POSITIVE LOGITS
Cours
0.42
監視
0.38
frit
0.37
contamin
0.37
contaminate
0.37
,
0.36
That
0.35
とする
0.35
invaded
0.35
käyttää
0.35
Activations Density 0.001%