INDEX
Negative Logits
νας
-0.07
안전
-0.07
_PHONE
-0.06
_PREF
-0.06
dự
-0.06
スタ
-0.06
Cost
-0.06
uracy
-0.06
슈
-0.06
độc
-0.06
POSITIVE LOGITS
gluten
0.07
,...↵↵
0.06
oven
0.06
congrat
0.06
lint
0.06
idue
0.06
carry
0.06
ض
0.06
Which
0.06
% ↵
0.06
Activations Density 0.003%