善良外套

文章
3
资源
0
加入时间
2年10月21天

python模拟硬件优化for循环

语句之间存在延迟,编译器为了优化程序,尽量减少cpi,会对程序的执行顺序进行动态调整比如下面这个程序for (i = 999; i >= 0; i = i - 1) x[i] = x[i] + s没有优化的时候执行是这样的:每个循环都需要10个clock,对其进行优化这个时候,每四个循环占用14个clock代码如下(由于软件实现和硬件实现存在差异,软件实现的时候将addi和bne放到了指令的最后面):#RISC-V#小端模式# 寄存...