INDEX
Negative Logits
XM
-0.07
erman
-0.07
arbeit
-0.07
Conse
-0.07
Instructions
-0.07
verbose
-0.07
$,
-0.07
opaque
-0.07
symbols
-0.07
Filename
-0.07
POSITIVE LOGITS
одинаков
0.17
regardless
0.14
irrespective
0.14
Regardless
0.13
независимо
0.13
одина
0.13
dezelfde
0.12
একই
0.12
Regardless
0.11
동일
0.11
Activations Density 0.100%