INDEX
Negative Logits
Logic
-0.07
))); ↵
-0.07
버전
-0.07
بازیگر
-0.06
.cr
-0.06
згод
-0.06
stares
-0.06
Locator
-0.06
bullshit
-0.06
confort
-0.06
POSITIVE LOGITS
ovich
0.07
Tuy
0.07
Geh
0.06
utan
0.06
にか
0.06
있고
0.06
ges
0.06
θ
0.06
thấp
0.06
unfortunately
0.06
Activations Density 0.030%