INDEX
Explanations
references to social groups or relationships involving shared identities
New Auto-Interp
Negative Logits
standers
-0.49
superiori
-0.48
stander
-0.48
Ikus
-0.48
legais
-0.47
warma
-0.46
abetes
-0.46
Twins
-0.46
Czytaj
-0.46
للمعارف
-0.45
POSITIVE LOGITS
fellow
0.58
一名
0.56
是一位
0.52
一位
0.51
นัก
0.50
那位
0.49
这位
0.48
createState
0.47
veteran
0.47
นัก
0.47
Activations Density 0.703%