INDEX
Negative Logits
destructor
0.43
椃
0.38
Password
0.36
হাম্মদ
0.35
stoke
0.35
Moc
0.34
idencia
0.34
啶
0.34
uan
0.34
hola
0.34
POSITIVE LOGITS
fair
4.44
Fair
4.31
Fair
4.25
fair
4.13
fairness
3.69
FAIR
3.66
公平
3.59
Fairness
3.45
fairer
3.30
フェア
3.23
Activations Density 0.053%