数学建模社区-数学中国

标题: 牛B的 John Carmack密码:0x5f3759df--Quake III的源代码分析 [打印本页]

作者: 5800    时间: 2009-11-26 23:24
标题: 牛B的 John Carmack密码:0x5f3759df--Quake III的源代码分析
有人在Quake III(雷神之锤3)的源代码里面发现这么一段用来求平方根的代码:2 h, D7 O. s& e6 d$ e: X% U
/*================SquareRootFloat================*/
9 ~& a6 p9 h9 w; J6 Wfloat SquareRootFloat(float number) {( _" b# E3 @3 m/ q( f
long i;6 ~. e9 ]& P6 `
float x, y;5 `$ B: t4 D' J# U) s
const float f = 1.5F;
/ ^) j' ]( h3 v& H9 ex = number * 0.5F;- M, ?* [' A5 t! s# ]5 m8 m7 L/ X
y = number;
( ?( J1 k9 v0 l( l- S+ [8 mi = * ( long * ) &y;6 ?7 U4 j; X5 p9 |! ]
i = 0x5f3759df - ( i >> 1 ); //注意这一行
8 }+ h: T9 p% \y = * ( float * ) &i;
2 f- {% {+ k' k( f6 _y = y * ( f - ( x * y * y ) );
# G4 V* {& j% e: t( ky = y * ( f - ( x * y * y ) );
/ C% X: {5 G+ T5 mreturn number * y;
" [5 ?* O' w8 Q& {' U}
0 c! X1 J% M# P! C, y: |0x5f3759df? 这是个什么东西? 学过数值分析就知道,算法里面求平方根一般采用' C  L( W0 Z: Q. _% \2 I8 ^# ~
的是无限逼近的方法,比如牛顿迭代法,抱歉当年我数值分析学的太烂,也讲不清楚9 ]) @& U$ |2 W( w3 j
。简单来说比如求5的平方根,选一个猜测值比如2,那么我们可以这么算4 H  R" `; L2 l2 c9 A
5/2 = 2.5; 2.5+2/2 = 2.25; 5/2.25 = **; 2.25+**/2 = **x ...
& X7 r  d+ t4 `. }) I  M- o2 K这样反复迭代下去,结果必定收敛于sqrt(5),没错,一般的求平方根都是这么算的
% i0 D# j( b/ h, L0 |/ T4 v。而卡马克的不同之处在于,他选择了一个神秘的猜测值0x5f3759df作为起始,使得1 z  z% u& K6 V4 r" S
整个逼近过程收敛速度暴涨,对于Quake III所要求的精度10的负三次方,只需要一
8 i  T* v# `4 V2 Y2 S7 G& L- T次迭代就能够得到结果。9 [& a8 c3 K6 Y6 ]$ `# r
好吧,如果这还不算牛b,接着看。; _& o5 \$ F3 @& Q) b/ j% {
普渡大学的数学家Chris Lomont看了以后觉得有趣,决定要研究一下卡马克弄出来的" f; x+ E  X: P4 E3 i0 s
这个猜测值有什么奥秘。Lomont也是个牛人,在精心研究之后从理论上也推导出一个1 \) W7 L, |' C
最佳猜测值,和卡马克的数字非常接近, 0x5f37642f。卡马克真牛,他是外星人吗?
1 p/ C7 S6 G6 _0 B2 ]* _2 I
0 S! _5 d7 K5 ?0 \( S- _+ o. D/ a传奇并没有在这里结束。Lomont计算出结果以后非常满意,于是拿自己计算出的起始
4 Y; e4 c! L7 h+ L# v值和卡马克的神秘数字做比赛,看看谁的数字能够更快更精确的求得平方根。结果是
' I  C. e8 H/ n3 a+ D# o) [卡马克赢了... 谁也不知道卡马克是怎么找到这个数字的。: t2 J# x% m0 z& K& Y" P/ ^
最后Lomont怒了,采用暴力方法一个数字一个数字试过来,终于找到一个比卡马克数
! }' L6 T4 Q( L字要好上那么一丁点的数字,虽然实际上这两个数字所产生的结果非常近似,这个暴
* e/ g0 Q; ]( u5 i力得出的数字是0x5f375a86。
6 [$ O1 J: G, V- s. jLomont为此写下一篇论文,"Fast Inverse Square Root"。* _% V  _6 |* l% M
John Carmack, ID的无价之宝。( r3 F6 a/ y% T7 N! S- P2 b  ]
//===============================================================
% g, G9 ~' F" A日前在书上看到一段使用多项式逼近计算平方根的代码,至今都没搞明白作者是怎样推算出那个公式的。但在尝试解决问题的过程中,学到了不少东西,于是便有了这篇心得,写出来和大家共享。其中有错漏的地方,还请大家多多指教。
" X" b5 g% z  m7 `的确,正如许多人所说的那样,现在有有FPU,有3DNow,有SIMD,讨论软件算法好像不合时宜。关于sqrt的话题其实早在2003年便已在 GameDev.net上得到了广泛的讨论(可见我实在非常火星了,当然不排除还有其他尚在冥王星的人,嘿嘿)。而尝试探究该话题则完全是出于本人的兴趣和好奇心(换句话说就是无知)。) T: I0 t& o# d% K3 s
我只是个beginner,所以这种大是大非的问题我也说不清楚(在GameDev.net上也有很多类似的争论)。但无论如何,Carmack在DOOM3中还是使用了软件算法,而多知道一点数学知识对3D编程来说也只有好处没坏处。3D图形编程其实就是数学,数学,还是数学。
* z" }% y' ^" d( j$ _8 k文章原本是用HTML编排的,所以只截取了部分有比较有趣的东西放在这里。原文在我的个人主页上,同时也提供了2篇论文的下载:http://greatsorcerer.go2.icpcn.com/info/fastsqrt.html4 v. ~' O0 ?' z7 }
=========================================================
3 b; {9 Y3 T2 b, k) a4 d! e* v在3D图形编程中,经常要求平方根或平方根的倒数,例如:求向量的长度或将向量归一化。C数学函数库中的sqrt具有理想的精度,但对于3D游戏程式来说速度太慢。我们希望能够在保证足够的精度的同时,进一步提高速度。
! c5 m) {( q  \6 O/ z! F7 qCarmack在QUAKE3中使用了下面的算法,它第一次在公众场合出现的时候,几乎震住了所有的人。据说该算法其实并不是Carmack发明的,它真正的作者是Nvidia的Gary Tarolli(未经证实)。9 Y: d, t5 g2 B8 M9 [1 y- L
-----------------------------------$ |& O" Z# _+ @; z& ]' G; x% s
//
/ Q$ ^$ M' D. l1 l" a5 c; A// 计算参数x的平方根的倒数
, C2 e- {7 R) s% p7 R; k4 W: y//$ g1 t8 ]2 L1 M" x) |
float InvSqrt (float x): T' g- ^1 r/ R0 J. I. C  j' I
{
1 d) @) m; J$ p- I" dfloat xhalf = 0.5f*x;9 @$ P1 ^! r/ D7 g' V
int i = *(int*)&x;) y* g0 h! z7 `. Q0 H6 l& N
i = 0x5f3759df - (i >> 1); // 计算第一个近似根
  y8 [: {" K- r$ G$ _x = *(float*)&i;
% z$ `/ x2 }; q& gx = x*(1.5f - xhalf*x*x); // 牛顿迭代法; P8 L( ]! e+ ~3 ~1 V; L1 C* h& L: j
return x;
& E, V' {) C6 ?2 _1 [}0 [8 }1 |& p% G! R2 x0 d( ?4 s' \9 e) n
----------------------------------
9 y! S1 o0 K1 B/ a. W4 G该算法的本质其实就是牛顿迭代法(Newton-Raphson Method,简称NR),而NR的基础则是泰勒级数(Taylor Series)。NR是一种求方程的近似根的方法。首先要估计一个与方程的根比较靠近的数值,然后根据公式推算下一个更加近似的数值,不断重复直到可以获得满意的精度。其公式如下:
5 m& A( ]8 z6 K1 l: l; g+ y-----------------------------------# K! |+ i5 D8 @+ d& V
函数:y=f(x)" g6 ?0 B- v9 A, {1 V* c- g; [9 O
其一阶导数为:y'=f'(x)
6 o9 m$ ~5 {3 b7 M# U4 d则方程:f(x)=0 的第n+1个近似根为
, W1 f  k5 C; R8 b4 m, E7 I. bx[n+1] = x[n] - f(x[n]) / f'(x[n])$ N+ X2 d/ c- Q# P
-----------------------------------  W1 T' C7 E5 ~- M6 f
NR最关键的地方在于估计第一个近似根。如果该近似根与真根足够靠近的话,那么只需要少数几次迭代,就可以得到满意的解。- K5 |1 |" o7 O& t; {3 U4 _
现在回过头来看看如何利用牛顿法来解决我们的问题。求平方根的倒数,实际就是求方程1/(x^2)-a=0的解。将该方程按牛顿迭代法的公式展开为:
: b  J/ A8 K5 dx[n+1]=1/2*x[n]*(3-a*x[n]*x[n])
. c+ _' B3 y, d; r将1/2放到括号里面,就得到了上面那个函数的倒数第二行。
: v( Z- }. X* a& |% j6 S: E! H* E4 Q接着,我们要设法估计第一个近似根。这也是上面的函数最神奇的地方。它通过某种方法算出了一个与真根非常接近的近似根,因此它只需要使用一次迭代过程就获得了较满意的解。它是怎样做到的呢?所有的奥妙就在于这一行:
* S  U5 v2 B6 l, Ji = 0x5f3759df - (i >> 1); // 计算第一个近似根
8 P+ u3 p( F6 I- Y4 w8 f超级莫名其妙的语句,不是吗?但仔细想一下的话,还是可以理解的。我们知道,IEEE标准下,float类型的数据在32位系统上是这样表示的(大体来说就是这样,但省略了很多细节,有兴趣可以GOOGLE):% E& T5 w! p( Y7 p6 Z
-------------------------------: U+ k$ k9 k2 x- w: k( m+ \
bits:31 30 ... 0+ O* a1 ~$ v0 ~
31:符号位
6 k6 x  \& R2 m) ~/ }: q, v30-23:共8位,保存指数(E)$ ~: N- H( B; P2 z# h
22-0:共23位,保存尾数(M)
' r9 A- Y7 B' d$ p3 H# ?" P) ?" j-------------------------------
1 o& C# \! |" \所以,32位的浮点数用十进制实数表示就是:M*2^E。开根然后倒数就是:M^(-1/2)*2^(-E/2)。现在就十分清晰了。语句i> >1其工作就是将指数除以2,实现2^(E/2)的部分。而前面用一个常数减去它,目的就是得到M^(1/2)同时反转所有指数的符号。
  L, u) J0 R# o* y# C" \1 }. w至于那个0x5f3759df,呃,我只能说,的确是一个超级的Magic Number。2 t6 D7 Z3 b. ?- Y3 ]9 k2 W
那个Magic Number是可以推导出来的,但我并不打算在这里讨论,因为实在太繁琐了。简单来说,其原理如下:因为IEEE的浮点数中,尾数M省略了最前面的1,所以实际的尾数是1+M。如果你在大学上数学课没有打瞌睡的话,那么当你看到(1+M)^(-1/2)这样的形式时,应该会马上联想的到它的泰勒级数展开,而该展开式的第一项就是常数。下面给出简单的推导过程:. q) o6 x' x$ w4 t
-------------------------------
2 y0 i' }( g1 y" K4 [5 a对于实数R>0,假设其在IEEE的浮点表示中,
! e3 }2 K5 n7 k# K" u" C. _* n8 y指数为E,尾数为M,则:
0 O. I; [* d7 {1 b# m. jR^(-1/2)
3 p1 E$ [; L$ [. o( h= (1+M)^(-1/2) * 2^(-E/2)# }( P' p7 U2 d+ e9 L8 H; Z
将(1+M)^(-1/2)按泰勒级数展开,取第一项,得:9 ^" l/ V9 i) B% T% ?2 f
原式
, ^( @. u3 S* c% L2 _= (1-M/2) * 2^(-E/2)
2 n& N: a$ H+ T8 N- w1 Q= 2^(-E/2) - (M/2) * 2^(-E/2)7 y: x* E1 [( b. l/ S! v
如果不考虑指数的符号的话,
8 r3 v' P% g' Q& Y( S(M/2)*2^(E/2)正是(R>>1),
' q3 ^7 g8 H9 P- {( r& l' Q而在IEEE表示中,指数的符号只需简单地加上一个偏移即可,* D" v7 f0 K4 V, }. v
而式子的前半部分刚好是个常数,所以原式可以转化为:
! B: I) F& m/ O$ E原式 = C - (M/2)*2^(E/2) = C - (R>>1),其中C为常数- t% E3 e/ @2 B: m
所以只需要解方程:
! Q6 \- i2 n0 pR^(-1/2)9 ^+ M& Q: D! w% v
= (1+M)^(-1/2) * 2^(-E/2)" ?! w5 P% T4 N. Z. S
= C - (R>>1)/ p; R" r6 G, g7 `  l2 ^! c
求出令到相对误差最小的C值就可以了
' }  Y3 w/ S  d5 K: L. q4 T0 F-------------------------------$ K' o8 |  ^* x  w  ?0 [
上面的推导过程只是我个人的理解,并未得到证实。而Chris Lomont则在他的论文中详细讨论了最后那个方程的解法,并尝试在实际的机器上寻找最佳的常数C。有兴趣的朋友可以在文末找到他的论文的链接。" h$ D& z' ?; L
所以,所谓的Magic Number,并不是从N元宇宙的某个星系由于时空扭曲而掉到地球上的,而是几百年前就有的数学理论。只要熟悉NR和泰勒级数,你我同样有能力作出类似的优化。( Z, t( a  e* a( v, A+ K' {
在GameDev.net上有人做过测试,该函数的相对误差约为0.177585%,速度比C标准库的sqrt提高超过20%。如果增加一次迭代过程,相对误差可以降低到e-004 的级数,但速度也会降到和sqrt差不多。据说在DOOM3中,Carmack通过查找表进一步优化了该算法,精度近乎完美,而且速度也比原版提高了一截(正在努力弄源码,谁有发我一份)。
8 N& L6 H, K" J1 t3 S& {7 i' ~2 e值得注意的是,在Chris Lomont的演算中,理论上最优秀的常数(精度最高)是0x5f37642f,并且在实际测试中,如果只使用一次迭代的话,其效果也是最好的。但奇怪的是,经过两次NR后,在该常数下解的精度将降低得非常厉害(天知道是怎么回事!)。经过实际的测试,Chris Lomont认为,最优秀的常数是0x5f375a86。如果换成64位的double版本的话,算法还是一样的,而最优常数则为0x5fe6ec85e7de30da(又一个令人冒汗的Magic Number - -b)。
; @# O: _- a8 }. H7 t# b5 z这个算法依赖于浮点数的内部表示和字节顺序,所以是不具移植性的。如果放到Mac上跑就会挂掉。如果想具备可移植性,还是乖乖用sqrt好了。但算法思想是通用的。大家可以尝试推算一下相应的平方根算法。
7 y7 u; k; L, U. p  D- p下面给出Carmack在QUAKE3中使用的平方根算法。Carmack已经将QUAKE3的所有源代码捐给开源了,所以大家可以放心使用,不用担心会受到律师信。+ i& ~% [% P( V( _
---------------------------------9 X1 V4 s4 O5 R$ J$ z
//
; e, s6 L4 f; |3 T% s* ^$ d) d// Carmack在QUAKE3中使用的计算平方根的函数
0 v7 w1 L4 }6 r9 r: P//
& p" `' e( R% v) y2 y3 afloat CarmSqrt(float x){7 g4 b" S5 R' N5 [' T$ Y
union{
) u: K" K4 r0 f# ~) Z: J2 Eint intPart;( ~6 \. Q3 ~1 g7 y$ Y/ G; T5 N" T
float floatPart;
% `6 ^6 {  F  ~+ O8 N7 U7 x# K0 o} convertor;
) g/ d' {& I( _" V. z1 n) Junion{
# G, p& W) E. @! O5 ^, \/ k' u. S8 Qint intPart;
9 J7 R3 c% W  l, ifloat floatPart;
) n, I- J2 g7 N+ y} convertor2;- I0 \$ \& v3 M  [; i" v
convertor.floatPart = x;
6 M5 C" O- N, c. x! wconvertor2.floatPart = x;
# O8 e+ k, S. k9 x- }; H# ?- u0 Nconvertor.intPart = 0x1FBCF800 + (convertor.intPart >> 1);
% v* I, p. O7 x  Fconvertor2.intPart = 0x5f3759df - (convertor2.intPart >> 1);
: o6 x3 S' Y: T. X$ dreturn 0.5f*(convertor.floatPart + (x * convertor2.floatPart));. ]/ E! y* Q% J$ U) \- d0 t9 g
}
作者: olh2008    时间: 2009-11-27 08:22
// 计算参数x的平方根的倒数
1 u; b$ ~) C6 R8 p0 w$ e9 Y# i//2 j3 ]) a! H7 H) Z+ g# L
float InvSqrt (float x)
* V; _4 K' y; W0 [$ ]- m, H3 B9 K{- b$ r9 U3 f4 W; p# X* R; _
float xhalf = 0.5f*x;
% d% R0 ^6 k) v8 V" C3 l; L1 _3 R7 ^int i = *(int*)&x;
& f. @# ?0 [4 J$ E0 ci = 0x5f3759df - (i >> 1); // 计算第一个近似根
9 O2 Y1 D/ Q. ]% _5 B$ Gx = *(float*)&i;
" e6 A6 i2 \0 J4 r. I- P$ P. ex = x*(1.5f - xhalf*x*x); // 牛顿迭代法0 x4 A6 W' M6 W. n8 m1 G/ p5 q
return x;
: g  t" `& n( g5 i4 F' h+ `}

8 f6 s4 q2 b2 \$ j5 u, ~- b; y这个函数好像并不能实现计算x的平方根的倒数,比如我输入参数为100,它得到的却是-NAN




欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) Powered by Discuz! X2.5