INDEX
Negative Logits
zech
-0.06
emek
-0.06
радян
-0.06
Wang
-0.06
赏
-0.06
Shutdown
-0.06
飯
-0.06
svých
-0.06
plaisir
-0.06
monument
-0.06
POSITIVE LOGITS
elbows
0.07
disclosures
0.07
926
0.07
-posts
0.07
_va
0.06
addictive
0.06
_repr
0.06
scares
0.06
різ
0.06
клас
0.06
Activations Density 0.005%