INDEX
Explanations
references to the British context or events
New Auto-Interp
Negative Logits
万美元
-0.57
inigte
-0.56
Haitian
-0.48
argint
-0.47
AndEndTag
-0.46
atecas
-0.46
ronesia
-0.45
亿美元
-0.44
SequentialGroup
-0.43
Gebet
-0.43
POSITIVE LOGITS
British
2.09
Britain
2.05
UK
2.05
England
1.98
英国
1.97
British
1.88
Britain
1.84
Britons
1.80
british
1.80
英國
1.80
Activations Density 1.390%