python模拟硬件优化for循环
语句之间存在延迟,编译器为了优化程序,尽量减少cpi,会对程序的执行顺序进行动态调整比如下面这个程序for (i = 999; i >= 0; i = i - 1) x[i] = x[i] + s没有优化的时候执行是这样的:每个循环都需要10个clock,对其进行优化这个时候,每四个循环占用14个clock代码如下(由于软件实现和硬件实现存在差异,软件实现的时候将addi和bne放到了指令的最后面):#RISC-V#小端模式# 寄存...