INDEX
Negative Logits
1
0.50
一些
0.46
你
0.45
Hoff
0.45
2
0.45
往
0.44
\
0.44
prefer
0.42
纵
0.41
ĺ
0.41
POSITIVE LOGITS
luminal
0.52
βασ
0.51
avasena
0.48
interno
0.47
വനി
0.47
запла
0.47
㥆
0.47
စိတ်
0.46
cooperating
0.46
heira
0.46
Activations Density 0.005%