INDEX
Negative Logits
_PHONE
-0.07
дот
-0.07
path
-0.06
BOVE
-0.06
sedan
-0.06
.stamp
-0.06
Omar
-0.06
paths
-0.06
Oscars
-0.06
.save
-0.06
POSITIVE LOGITS
奖
0.08
(){
↵0.07
народу
0.06
<|start_header_id|>
0.06
ihre
0.06
lawmakers
0.06
isoner
0.06
ihren
0.06
.*; ↵
0.06
southeastern
0.06
Activations Density 0.042%