INDEX
Negative Logits
?|
-0.08
potassium
-0.08
miracle
-0.08
längre
-0.07
ivation
-0.07
Assistant
-0.07
kunna
-0.07
????
-0.07
Activate
-0.07
Source
-0.07
POSITIVE LOGITS
Zon
0.08
carte
0.08
脸
0.08
goog
0.08
stubborn
0.08
cest
0.08
warfare
0.08
enspiele
0.08
(‘
0.07
(gca
0.07
Activations Density 0.003%