INDEX
Negative Logits
avenue
-0.07
argon
-0.07
_OP
-0.07
nini
-0.07
influx
-0.07
olocation
-0.07
эц
-0.07
Blk
-0.07
Pepe
-0.07
testi
-0.07
POSITIVE LOGITS
duk
0.07
shaping
0.07
contr
0.07
unsafe
0.07
пов
0.07
fect
0.07
만나
0.07
forage
0.07
ان
0.07
UW
0.07
Activations Density 0.010%