INDEX
Negative Logits
libero
-0.08
uncon
-0.07
banned
-0.07
colorful
-0.07
têm
-0.07
多彩
-0.07
יפה
-0.07
الإيراني
-0.07
tofu
-0.07
polít
-0.07
POSITIVE LOGITS
.ab
0.08
くなる
0.08
";
0.07
/';↵
0.07
Essentials
0.07
.closest
0.07
_LCD
0.07
ILITIES
0.07
Wilson
0.07
,True
0.07
Activations Density 0.000%