INDEX
Negative Logits
tableView
1.04
qal
0.95
Tät
0.95
Fremont
0.94
pretends
0.91
broom
0.91
taxpayers
0.90
sucrose
0.90
meter
0.90
的历史
0.90
POSITIVE LOGITS
Sek
0.80
Baseline
0.79
Unh
0.76
ówki
0.74
offenen
0.73
Pupp
0.71
Stim
0.70
्ञ
0.70
वार्ड
0.69
ت
0.69
Activations Density 0.028%