INDEX
Negative Logits
. ↵
-0.07
קיב
-0.07
נת
-0.07
depth
-0.07
첵
-0.07
tedious
-0.07
дерев
-0.07
Steering
-0.06
Jaune
-0.06
노동
-0.06
POSITIVE LOGITS
explode
0.08
ู
0.07
史上
0.07
Videos
0.06
bloc
0.06
pus
0.06
backend
0.06
府
0.06
華
0.06
_upper
0.06
Activations Density 0.078%