INDEX
Negative Logits
↵
0.61
groaned
0.58
뵙
0.53
elace
0.52
pretends
0.51
8
0.50
pyrimidine
0.49
用の
0.49
intendent
0.49
ল
0.48
POSITIVE LOGITS
acterial
0.59
Proud
0.58
ludzie
0.56
proud
0.55
antaranya
0.55
stö
0.55
kohta
0.55
ingen
0.54
vad
0.54
ambientes
0.54
Activations Density 0.004%