INDEX
Negative Logits
入选
-0.07
sig
-0.07
잖아
-0.07
込む
-0.07
те
-0.07
zung
-0.06
wav
-0.06
דלק
-0.06
Finland
-0.06
rax
-0.06
POSITIVE LOGITS
בלי
0.07
假设
0.07
这句话
0.07
_fact
0.07
upsetting
0.07
}>
0.07
*/}↵
0.07
pointing
0.07
pits
0.06
BETWEEN
0.06
Activations Density 0.005%