INDEX
Negative Logits
[port
-0.07
有关
-0.07
нам
-0.07
(station
-0.07
být
-0.06
зуп
-0.06
exploit
-0.06
harms
-0.06
salary
-0.06
dire
-0.06
POSITIVE LOGITS
smile
0.06
rost
0.06
ebb
0.06
rian
0.06
عاما
0.06
Formatting
0.06
Noah
0.06
demeanor
0.06
simplicity
0.06
Adam
0.06
Activations Density 0.012%