INDEX
Negative Logits
yourselves
0.50
yourself
0.48
usted
0.44
你也
0.41
您的
0.40
rightfully
0.40
cccs
0.40
نفسه
0.39
knows
0.38
understands
0.38
POSITIVE LOGITS
レン
0.40
给人
0.38
מד
0.38
smrt
0.37
吏
0.37
bankruptcy
0.36
ispielsweise
0.36
侨
0.36
TIT
0.36
ide
0.35
Activations Density 0.002%