INDEX
Explanations
PhD qualifications or retired professions
New Auto-Interp
Negative Logits
0
0.50
ambitious
0.49
ismo
0.45
ige
0.45
nationality
0.45
Sim
0.42
favored
0.41
很好的
0.41
Workspace
0.40
Table
0.40
POSITIVE LOGITS
और
0.60
και
0.57
и
0.57
এবং
0.55
आणि
0.54
Uygh
0.53
และ
0.52
và
0.51
ἀ
0.51
ແລະ
0.50
Activations Density 0.001%