INDEX
Negative Logits
.mouse
-0.08
πάντα
-0.08
Did
-0.07
.did
-0.07
TSR
-0.07
mathbf
-0.07
serán
-0.07
.face
-0.07
Didn't
-0.07
ò
-0.07
POSITIVE LOGITS
benefits
0.23
Benefits
0.22
Benefits
0.22
voordelen
0.22
Vorteile
0.21
advantages
0.21
avantages
0.21
メリ
0.21
преимущества
0.20
લાભ
0.20
Activations Density 0.237%