INDEX
Negative Logits
Features
-0.08
UDGE
-0.08
regarder
-0.08
aanbod
-0.08
dret
-0.08
wrench
-0.08
Accord
-0.08
Ná
-0.08
ностран
-0.07
Ehe
-0.07
POSITIVE LOGITS
ASCII
0.08
org
0.08
Bram
0.08
White
0.07
[:
0.07
Rockefeller
0.07
вания
0.07
mezz
0.07
blanche
0.07
الأبيض
0.07
Activations Density 0.001%