INDEX
Negative Logits
decade
-0.08
Gay
-0.08
.activ
-0.07
反映
-0.07
fabricated
-0.07
cell
-0.07
-wall
-0.07
העובדה
-0.07
第二届
-0.07
,map
-0.06
POSITIVE LOGITS
.MESSAGE
0.07
粢
0.07
отлично
0.07
🤹
0.07
愉快
0.07
耔
0.07
蚯
0.07
_axes
0.07
😉
0.07
depressive
0.07
Activations Density 0.013%