INDEX
Negative Logits
_weight
-0.09
Mit
-0.08
Weight
-0.08
Queen
-0.07
peso
-0.07
hool
-0.07
Maintaining
-0.07
addiction
-0.07
WH
-0.07
toxin
-0.07
POSITIVE LOGITS
分别
0.20
각각
0.16
jeweils
0.12
respectively
0.12
birbir
0.11
separated
0.11
These
0.11
respectivos
0.10
respective
0.10
sépar
0.10
Activations Density 0.102%