INDEX
Negative Logits
posticis
0.50
tsunami
0.49
ٹو
0.48
salivary
0.48
۳
0.47
repre
0.47
localVarAccept
0.47
antibiotic
0.46
⦖
0.46
bipartisan
0.46
POSITIVE LOGITS
貨
0.47
狗
0.45
talent
0.44
裁
0.43
api
0.43
dao
0.43
wens
0.42
關
0.42
外部
0.41
棄
0.41
Activations Density 0.001%