【转载】当代的IA32汇编指令优化手册【zklhp版】(感觉标题不够长) - 汇编论坛

zklhp

来　自：china
等　级：贵宾
威　望：254
帖　子：11485
专家分：33241
注　册：2007-7-10
结帖率：100%

楼主

问题点数：0 回复次数：10

【转载】当代的IA32汇编指令优化手册【zklhp版】(感觉标题不够长)

当代的IA32汇编指令优化手册

;*****************************************************************************************************************
;作者:zklhp
;Email:zklhp@
;QQ:493165744
;版权所有转载请保持完整
;*****************************************************************************************************************

好罢我是标题党这个【当代】二字其实很不恰当因为本文所有的测试均在一个Intel Core 2 Duo T5750 2GHz 上进行而且还是测试的32位模式这恐怕不能很好的代表当代的CPU的情况

但是相比那些以386 486来讨论的文章本文更接近当代CPU的情况还算是比较实用的

以下的优化技巧来自一些以往的优化文章及本人的积累文章的数据来自这个测试程序 http://www. 本文对那个程序做了一些修改但是原理是一样的测试程序本贴也提供了呵呵

说明一下这个测试程序是以nop也就是空指令为基准计算其他指令的用时下文中所有的指令用时数据都是这个并不是指令用的周期数而且呵呵测试都是在我上面提到的CPU上进行的

数据并没有用统计方法处理但是是运行过几次的一个比较公平的数据只是用来反映指令的快慢情况这种精度足够了

可能会不断补充的先发写出来的罢期待其他CPU的测试数据欢迎拍板砖。。。

寄存器清零

程序代码：

   
    mov eax,0
    ;长度:5字节 用时:3.77
    ;一条占用5字节而且用时最多的写法 出现在程序中是找喷的
   
    xor eax,eax
    ;长度:2字节 用时:1.58
   
    sub eax,eax
    ;长度:2字节 用时:1.57

肯定要用xor或sub法

PS:很有意思的是某些时候sub法用时小于1 较小概率随机出现原因未知有待进一步测试

寄存器赋1

程序代码：

   
    mov eax,1
    ;长度:5字节 用时:3.79
   
    sub eax,eax
    inc eax
    ;长度:3字节 用时:2.51
    ;两条指令比一条指令要好
   
    xor    eax,eax
    inc eax
    ;长度:3字节 用时:2.52
   
    mov eax,edx    ;已知为0的寄存器
    inc eax
    ;长度:3字节 用时:2.52
   
    lea eax,ds:[1]
    ;长度:6字节 用时:4.65
    ;也是一种写法

寄存器赋-1

程序代码：

   
    mov eax,0FFFFFFFFH
    ;长度:5字节 用时:3.79
    ;已经没有人这么写了罢
   
    xor eax,eax
    dec eax
    ;长度:3字节 用时:2.49
   
    stc
    sbb eax,eax
    ;长度:3字节 用时:2.50
    ;比较怪异的写法 貌似没有速度上的收获

寄存器加1

程序代码：

   
    add eax,1
    ;长度:3字节 用时:3.04
   
    inc eax
    ;长度:1字节 用时:3.01
    ;优势在指令长度 速度不明显
   
    lea eax,[eax+1]
    ;长度:3字节 用时:2.96

可以认为三者的速度是一样的但是长度3字节的写法和一字节的inc比差了点
有兴趣的可以用统计的方法看看lea是不是比普通的写法快

寄存器加立即数

程序代码：

   
    add eax,1234
    ;长度:5字节 用时:3.86
   
    adc eax,1234
    ;长度:5字节 用时:6.07
   
    lea eax,[eax+1234]
    ;长度:6字节 用时:4.61

lea在这里不好用

寄存器与0比

程序代码：

   
    test eax,eax
    ;长度:2字节 用时:1.56
   
    or eax,eax
    ;长度:2字节 用时:3.01
    ;慢
   
    cmp eax,0
    ;长度:3字节 用时:2.26
    ;谁会用这个呢。。

出现立即数的写法一贯不好

寄存器与-1比

程序代码：

   
    cmp eax,0ffffffffh
    ;长度:3字节 用时:2.33
    ;编译出来是cmp eax,0ffh
   
    inc eax
    dec eax
    ;长度:2字节 用时:5.96
    ;比较的时候肯定会接一个跳转指令 但我这个测试方法没法做这样的测试 所以就比较不加跳转的 都少一个跳转的情况下可以比
    ;这个写法中间有一个je的 以上的比较测试都有跳转指令的

寄存器赋一个字节的立即数(感觉这个描述很别扭)

程序代码：

   
    mov eax,88
    ;长度:5字节 用时:3.82
   
    push 88
    pop eax
    ;长度:3字节 用时:7.72
    ;慢但是在这种情况下能省字节
    ;这是立即数是字节时的一种小技巧

乘以一个数

程序代码：

   
    mov ebx,8888
    mul ebx
    ;长度:7字节 用时:13.26
   
    mov ebx,8888
    imul ebx
    ;长度:7字节 用时:13.58
   
    imul eax,eax,8888
    ;长度:6字节 用时:9.26
    ;IMUL Reg, Reg/Mem ;80386+ Reg1 ← Reg1×Reg2  或  Reg1 ← Reg1×Mem 各操作数的位数要一致
   
    shl eax,3
    ;长度:3字节 用时:3.06
    ;用位移代替乘法能大大提高速度 但是只能是乘2的次方的时候才能用
    ;这里用来做个对照

要优先使用 IMUL Reg, Reg/Mem

shl的用法

程序代码：

   
    shl eax,2
    ;长度:3字节 用时:3.04
   
    shl eax,1
    shl eax,1
    ;长度:4字节 用时:6.01

我曾经这样写过弄巧成拙

xchg的好处

程序代码：

   
    xchg ebx,edx
    ;长度:2字节 用时:6.03
   
    mov eax,ebx
    mov ebx,edx
    mov edx,eax
    ;长度:6字节 用时:6.16
   
    xor ebx,edx
    xor edx,ebx
    xor ebx,edx
    ;长度:6字节 用时:9.10
   
    push ebx
    push edx
    pop edx
    pop ebx
    ;长度:4字节 用时:15.19

eax=ecx*4+3

程序代码：

   
    mov eax,ecx
    shl eax,2
    add eax,3
    ;长度:8字节 用时:6.44
   
    lea eax,[ecx*4+3]
    ;长度:7字节 用时:5.38

lea应该这么用

测试用的程序代码+可执行文件+MasmPlus工程

InsBMT.zip (11.76 KB)

★★★★★★★★★★★★★★★★★★★★★★★★★★以上是12月18日的★★★★★★★★★★★★★★★★★★★★★★★★★★

寄存器加2

程序代码：

   
    add eax,2
    ;长度:3字节 用时:3.04
   
    inc eax
    inc eax
    ;长度:2字节 用时:5.99

差强人意省了1字节虽然这点时间和这点空间都不大、、、

寄存器和内存比较时的顺序问题

程序代码：

   
    cmp eax,DWORD ptr [buffer]    ;也就是一个内存变量啦
    ;长度:6字节 用时:4.63
   
    cmp DWORD ptr [buffer],eax
    ;长度:6字节 用时:4.70
    ;有人说能省一个字节的。。
   
    cmp ebx,DWORD ptr [buffer]
    ;长度:6字节 用时:4.60
   
    cmp DWORD ptr [buffer],ebx
    ;长度:6字节 用时:4.56

这里也出现了和第一个一样的现象

▲▲▲注意▲▲▲

关于这个现象我更正一下上面的描述其实是错误的或者说是与事实不符的上面的我就不改了以这个为准。。

我观察到的现象是某些时候运行这个程序得到的

相对nop的比值:4.647061

在某些时候会明显偏小比如这个cmp可能会出现2点几的数

开始我就把它描述成了【某些时候sub法用时小于1】理解成了指令在某些时候会运行的特别快用时短

但是明显不对啊我这里相当于执行了1G个指令如果有偶然的偏差对于整体数据的影响应该是微乎其微的所以应该跟指令没关系

我觉得可能的原因是某些东西拖慢了nop的执行速度唉我当时没看上面两个数。。我再多试几次看看能不能重现这个问题罢。。。

导致这个的原因有可能有好多喽操作系统或运行着的其他程序带来的影响或者因为我是在MasmPlus按运行执行的是不是和这个有关系呢或者是代码的问题抑或是除法算出来不对? 都可能

这其实就是很多人说的我这种测试方式带来的弊端不过罢可以用各种方式接近真实结果消除这些误差我想的一个方法是可以看下面的例子

对了看来测试需要重启电脑并关闭其他程序才行我上面的都没这么做。。。

inc eax 和 lea eax,[eax+1] 哪个快?

不需要对代码做大的修改用批处理里面的循环+cvs+Excel来研究一下就好了。。

程序代码：

    @echo off
    for /l %%i in (1,1,50) do console >> 50.csv
    pause

批处理里for的用法可以用for /?来看呵呵

代码改输出格式变成这样(突然发现程序的注释写错了你们明白就好了)

程序代码：

    invoke printf,CTXT('%lu,'),[dqTime1]
    invoke printf,CTXT('%lu,'),[dqTime2]
    invoke printf,CTXT('%f',0dh,0ah),[fTimes]

改成这样让它输出成基准用时,指令用时,比值的形式配合上面的可以导入到excel里用统计的方法看到底哪个快

50次测试数据不传了直接放结论

inc eax 2.98846542±0.021641592 (平均值±标准差)
lea eax,[eax+1] 2.9813342±0.016966188 (平均值±标准差)

不用什么显著性差异也可以知道没区别一样快。。

[ 本帖最后由 zklhp 于 2011-12-18 17:27 编辑 ]

收到的鲜花

zaixuexi 于 2011-12-18 22:49 送鲜花 50朵附言：原创内容

搜索更多相关主题的帖子: Intel　Email　优化　手册　而且　

2011-12-18 10:42

zaixuexi

来　自：上海
等　级：火箭侠
威　望：8
帖　子：858
专家分：3233
注　册：2010-12-1

第 3 楼

得分:0

我也翻看了386,486的instruction cycle,单周期指令的也不少mov reg,imm已经是单周期了,你这个用时是ns的1/2GHZ=1/10-9吧,描述指令的快慢绝对没问题,用这个来指导优化程序代码,好象不太适合,主要对速度有影响的还是多周期指令,mul,div,10倍数量级以上的,还有跳转指令,会刷流水线的,其实,差几个时钟周期的指令,一般也不用优化了,CPU HZ这么高,很难体现出来的

期待版主后面的文章.

技术问题，请不要以短消息方式提问

2011-12-18 16:00

zaixuexi

来　自：上海
等　级：火箭侠
威　望：8
帖　子：858
专家分：3233
注　册：2010-12-1

第 5 楼

得分:0

3.77, 1.59, 1.57单位是多少?f=2GHz,T=1/f=0.5*10的负9次,0.5纳秒,基于nop的instruction cycle, 3.77*0.5ns,3.77是这个意思?
你的优化手册的用途在哪里?是对项目优化么?我觉得编译器可以做掉的
但是跳转指令编译器做不到的,只要分支预测错误,就会重刷全部的流水线的,我是指这个

技术问题，请不要以短消息方式提问

2011-12-18 17:06

zklhp

来　自：china
等　级：贵宾
威　望：254
帖　子：11485
专家分：33241
注　册：2007-7-10

第 7 楼

得分:0

哦我又更新了不过不知道为啥现在编辑帖子要打验证码

2011-12-18 17:30

zjsxwc

等　级：黑侠
威　望：1
帖　子：252
专家分：601
注　册：2011-1-20

第 9 楼

得分:0

lea的用法学习了，lea eax,[eax+8*ecx+122]

The tools I recommended:
GUI: CSharp(VS), QT; Core Code: Plain C (Tiny C Compiler); Web: Python, JavaScript; Android: Java; Embedded System: ASM&C (Linux)

2011-12-20 22:11