INDEX
Negative Logits
положительн
-0.07
дал
-0.07
_choose
-0.07
-dist
-0.07
이것은
-0.07
冲洗
-0.06
ِ
-0.06
在这种
-0.06
aes
-0.06
斗争
-0.06
POSITIVE LOGITS
flavor
0.08
卮
0.08
关乎
0.07
Flavor
0.07
빋
0.07
嚓
0.06
flavored
0.06
trusted
0.06
招商
0.06
robot
0.06
Activations Density 0.007%