INDEX
Negative Logits
«
-0.09
ola
-0.09
inc
-0.09
oli
-0.09
nic
-0.09
aso
-0.09
_
-0.09
Fab
-0.09
Glover
-0.08
Yup
-0.08
POSITIVE LOGITS
SOR
0.14
sorry
0.14
Sorry
0.13
Sorry
0.13
sorry
0.12
Sor
0.11
sor
0.10
avou
0.10
looks
0.10
ÂĢÂĢ
0.10
Activations Density 0.020%