INDEX
Negative Logits
scraping
-0.08
probing
-0.08
usses
-0.07
pressing
-0.07
ating
-0.07
udge
-0.07
indis
-0.07
dérou
-0.07
knowledgeable
-0.07
opinions
-0.07
POSITIVE LOGITS
↵
0.08
লাই
0.08
↵↵
0.08
trotz
0.07
counter
0.07
communion
0.07
नस
0.07
hog
0.07
lib
0.07
java
0.07
Activations Density 0.001%