INDEX
Negative Logits
rated
-0.07
کلاس
-0.07
پر
-0.06
衛
-0.06
fried
-0.06
conformity
-0.06
lime
-0.06
وقت
-0.06
Gods
-0.06
naken
-0.06
POSITIVE LOGITS
$__
0.07
something
0.07
.News
0.06
(exception
0.06
Auth
0.06
protobuf
0.06
ION
0.06
/table
0.06
Poll
0.06
Spy
0.06
Activations Density 0.001%