INDEX
Negative Logits
erc
-0.07
itals
-0.07
норм
-0.07
ennes
-0.06
ẩm
-0.06
asker
-0.06
harassment
-0.06
Thunk
-0.06
dao
-0.06
ンフ
-0.06
POSITIVE LOGITS
113
0.06
volatile
0.06
remove
0.06
102
0.06
112
0.06
ılığıyla
0.06
falsely
0.06
libraries
0.06
Software
0.06
-mask
0.06
Activations Density 0.000%