INDEX
Explanations
referring to people or entities
New Auto-Interp
Negative Logits
학생들이
0.70
孩子们
0.58
자들이
0.52
人們
0.50
কারীদের
0.47
শিক্ষার্থীদের
0.47
производителей
0.46
শিক্ষকদের
0.45
人们
0.44
uczniów
0.44
POSITIVE LOGITS
这位
1.69
這位
1.67
这个人
1.43
লোকটি
1.37
那位
1.22
guy
1.00
對方
0.92
这家
0.91
him
0.90
該
0.90
Activations Density 0.042%