INDEX
Negative Logits
ec
-0.08
-present
-0.08
Nath
-0.08
-то
-0.08
Ocean
-0.08
Dav
-0.07
Crimson
-0.07
Hunter
-0.07
>↵↵↵↵
-0.07
Surf
-0.07
POSITIVE LOGITS
tolerance
0.10
olerance
0.09
Tolerance
0.08
tolerate
0.08
dissent
0.08
tolerant
0.08
ే�
0.07
intolerance
0.07
edy
0.07
toler
0.07
Activations Density 0.007%