INDEX
Explanations
groups and their likely actions
New Auto-Interp
Negative Logits
あなたが
0.40
your
0.35
your
0.35
给你
0.34
あなたの
0.33
youre
0.32
вашего
0.32
നിങ്ങളുടെ
0.31
sizin
0.31
ваши
0.31
POSITIVE LOGITS
should
0.62
باید
0.59
Should
0.53
должны
0.52
harus
0.52
powin
0.52
pueden
0.51
должна
0.51
สามารถ
0.50
sollten
0.49
Activations Density 0.165%