INDEX
Negative Logits
躇
-0.75
$",
-0.73
Савезне
-0.72
CWE
-0.71
ngth
-0.71
ACTERS
-0.71
daß
-0.68
المعيارى
-0.68
\"");
-0.66
ahead
-0.65
POSITIVE LOGITS
op
0.53
pro
0.50
fart
0.49
po
0.49
cl
0.49
sel
0.47
ver
0.47
γ
0.47
Yet
0.46
تضيفلها
0.46
Activations Density 0.151%