INDEX
Negative Logits
only
0.50
selfish
0.49
conditional
0.45
allowing
0.44
guarantee
0.44
ONLY
0.44
death
0.43
Death
0.43
Real
0.42
ਾਮ
0.41
POSITIVE LOGITS
etcétera
0.55
düşünü
0.53
新冠
0.51
kült
0.50
是什麼
0.50
vorgestellt
0.50
étroites
0.49
hablaremos
0.48
¿?
0.48
叭
0.48
Activations Density 0.010%