INDEX
Negative Logits
----------------------------------------------------------------------------
-0.08
ås
-0.08
вещи
-0.07
幸运
-0.07
/she
-0.07
Dice
-0.07
Yum
-0.07
Dice
-0.07
cole
-0.07
encouraged
-0.07
POSITIVE LOGITS
poisonous
0.08
byg
0.08
国
0.07
itters
0.07
suatu
0.07
بل
0.07
Clause
0.07
Tens
0.07
cushions
0.07
numeros
0.07
Activations Density 0.006%