INDEX
Negative Logits
Positive
-0.07
ippet
-0.06
рань
-0.06
lendirme
-0.06
FAILED
-0.06
свое
-0.06
practise
-0.06
fools
-0.06
někdo
-0.06
_folders
-0.06
POSITIVE LOGITS
atore
0.08
moder
0.07
porto
0.07
Mex
0.07
.help
0.06
tr
0.06
_TYPE
0.06
ーマ
0.06
Rath
0.06
くらい
0.06
Activations Density 0.000%