INDEX
Negative Logits
сяг
-0.07
うち
-0.07
_failed
-0.07
是一个
-0.07
vidé
-0.07
。これ
-0.07
ária
-0.06
تبدیل
-0.06
侧
-0.06
Outcome
-0.06
POSITIVE LOGITS
knows
0.13
knew
0.12
know
0.10
knowing
0.09
KNOW
0.08
bureaucrats
0.08
neurological
0.07
트
0.07
hlav
0.06
realizing
0.06
Activations Density 0.030%