INDEX
Negative Logits
uš
-0.08
羞
-0.08
ા�
-0.08
ைக்கு
-0.08
ைப்பட
-0.08
_ml
-0.07
simba
-0.07
spite
-0.07
ің
-0.07
_photo
-0.07
POSITIVE LOGITS
Canc
0.09
.TR
0.08
Canc
0.08
ewise
0.07
.leading
0.07
bogbo
0.07
ਸਭ
0.07
बस
0.07
beaches
0.07
buses
0.07
Activations Density 0.010%