INDEX
Negative Logits
Arthur
-0.07
ήλ
-0.07
رود
-0.07
Arthur
-0.07
italiano
-0.06
Pt
-0.06
strut
-0.06
struk
-0.06
冷
-0.06
_chunk
-0.06
POSITIVE LOGITS
compensation
0.12
compensate
0.12
Compensation
0.11
compens
0.11
compensated
0.09
useDispatch
0.08
salary
0.07
ам
0.07
exaggerated
0.07
ным
0.07
Activations Density 0.004%