INDEX
Negative Logits
tồ
-0.08
ampire
-0.08
בדי
-0.08
诚实
-0.07
Tolkien
-0.07
migr
-0.07
Localized
-0.07
подпис
-0.07
choosing
-0.07
_physical
-0.06
POSITIVE LOGITS
preserved
0.07
要点
0.07
cliff
0.07
▄
0.07
#####
0.07
處
0.07
News
0.07
-css
0.06
utra
0.06
-x
0.06
Activations Density 0.002%