作者:幽幽黄桷兰 bbs.cqupt.edu.cn·[FROM: BBBKOM.CQUPT] 4 @( L9 k3 O+ q' r" Y# K! h
提起“变速齿轮”(以下简称“齿轮”)这个软件,大家应该都知道吧,该软件号称+ j& c8 |" N1 z
是全球第一款能改变游戏速度的程序。我起初用时觉得很神奇,久而久之就不禁思考其实现原理了,但苦于个人水平有限,始终不得其解,成了长驻于脑中挥散不去的大问号。
! b; O$ n( e1 J$ v( _) O 偶然一天在BBS上看到了一篇名为《“变速齿轮”研究手记》(以下简称《手记》)的文章,我如获至宝,耐着性子把文章看完了,但之后还是有很多地方不解,不过还是有了比较模糊的认识:原来齿轮是通过截获游戏程序对时间相关函数的调用并修改返回结果实现的呀。
, h$ I0 u8 S4 ]5 U$ }* d 为了彻彻底底地弄清齿轮的原理,我这次打算豁出去了。考虑到《手记》的作者从是研究的“齿轮”的反汇编代码的,那我也照样从反汇编代码开始。不过自认为汇编功底不够,又从图书馆借了几本关于Windows底层机制和386汇编的书,在经过差不多两周的“修行”之后,自我感觉有点好啦,哈哈,我也有点要迫不及待地把“齿轮”大卸八块了! 1 T# I6 W/ J: ~3 `
在动手之前,我又把《手记》看了一遍,这次可就清楚多了:通过调用门跳到Ring0级代码段,修改各系统时间相关函数的前8个字节为jmp指令,转跳到“齿轮”映射到2G之上的代码,达到截获对各系统时间相关函数的调用的目的。但同时我的疑惑也更明确了:
. P5 S- Y) @1 b1 c3 @7 D/ W' [' Q8 E 1.“齿轮”怎样建立指向自己映射到2G以上内存的代码的调用门描述符的;
$ l. M) G. D& m 2.“齿轮”怎样将自己的代码映射到2G以上线性地址的;
, Y' ^) m# v# I4 ^# P5 L4 u4 | 3.映射到2G之上的代码是怎样做到在代码基址更改的情况仍能正确运行的
% h: t3 n3 a0 l: ^( u) l; K 带着这样的疑问,我正式开始了对“齿轮”反汇编代码的分析。工具嘛,不用说当; O6 s4 R4 L5 `' j7 X5 [
然是Softice for Windows98、W32Dasm,OK,出发啦! 4 t+ N: e. w0 ^& g: V; U
我的“齿轮”版本是0.221 for win98和winme的,内含有两个文件(变速齿轮.exe6 v3 [5 X+ Q" j2 s3 a7 X
和Hook.dll)。先看看Hook.dll里面有些什么,用W32Dasm将Hook.dll反汇编,看看它的输出函数:
9 ^7 S) o ]) Q B$ b, r1 k3 G. X3 h __@@A">?ghWnd@@3PAUHWND__@@A
3 Y% d. V$ B/ j# C8 X. n ?gnHotKey1@@3KA' [# Z0 T" g# e! `
?gnHotKey2@@3KA
% |+ j1 Q, P: I9 x ?gnHotKey3@@3KA2 [8 x9 N$ a- u
?gnHotKey4@@3KA1 O. d# T- G) ~4 b! K# c
?nHook@@3HA
6 l! Q7 c- J" b1 M3 o" p* i __@@@Z">?SetHook@@YAHPAUHWND__@@@Z
+ w9 ]$ i2 R# }7 C! S v/ I% A0 d ?UnHook@@YAHXZ , A! `$ i7 ^5 h4 P5 k
看函数名好象该dll只是安装钩子捕获变速热键的,与我的研究目的没太大的关系, 跳过去!
, m+ X: J3 ~$ }. U+ Z# x$ c9 ~8 q4 u 再看看变速齿轮.exe的导入函数,timeGetTim、GetTickCount等时间相关的函数都- j0 g D* ~' C8 C: K5 Q
在里面。嘿,还有CreateFileMappingA和MapViewOfFileEx,看来“齿轮”是用这两个函
1 }% ^; P d! x/ \3 d数创建映射文件的。以下列出几个关键的导入函数: 7 S: Y% D5 w7 x) Q7 B3 f
Hook.?gnHotKey1@@3KA
$ S6 G, W! V! S" s5 h Hook.?gnHotKey2@@3KA
; b6 ?$ Z! X7 k6 D, {0 x Hook.?gnHotKey3@@3KA7 ]( D* r7 b6 D7 a5 L8 B
Hook.?gnHotKey4@@3KA
! V: u4 ?+ }- \0 j; x" V __@@@Z">Hook.?SetHook@@YAHPAUHWND__@@@Z; b4 K. ?. [9 t0 l
KERNEL32.CreateFileMappingA( f) G8 Q6 {3 I/ W$ t$ `0 J
KERNEL32.GetModuleFileNameA! E" g7 t) {5 ^
KERNEL32.GetModuleHandleA. j6 t+ t7 V. R7 M
KERNEL32.GetTickCount
5 m5 S2 W- q" z y+ E KERNEL32.MapViewOfFileEx
( u0 o. A1 I9 I1 d1 {* k C KERNEL32.QueryPerformanceCounte
" o) W9 r, s8 ] USER32.KillTimer: @0 z% R2 n) T2 j2 I7 p
USER32.SendMessageA
* X% i, C+ a9 W& l' Y% F USER32.SetTimer }) g1 P2 R; o! `$ g
WINMM.timeGetTime6 ~# C$ z/ F1 g5 R: [$ S
WINMM.timeSetEvent
4 Z* O- z1 R7 i6 g/ G1 K$ n: p 既然“齿轮”截获了timeGetTime,那我就跟踪timeGetTime函数的执行情况。
% j; ^! f7 G. e' f 我先写了个Win32 APP (以下简称APP),当左击客户区时会调用timeGetTime并将返回的结果输出至客户区。运行这个程序,打开“齿轮”,改变当前速度。 . q1 G8 q( L' b% F+ H* E
Ctrl + D 呼出Softice,bpx timeGetTime ,退出,再左击APP客户区,Softice跳出。哈,果然timeGetTime函数的首指令成了jmp 8xxx 002A ,好F8继续执行,进入了“ 齿轮”映射到2G线性地址之上的代码。一路F8下去,发现接着“齿轮”把timeGetTime 首指令恢复,并再次调用timeGetTime,这样就得到了timeGetTime的正确结果,保存结果。“齿轮”再把timeGetTime首指令又改为jmp 8xxx 002A 。接下来都猜得到“齿轮”要干什么了!没错,将得到的返回值修改后返回至调用timeGetTime的程序APP。 % Q: B$ I/ g. W. H
我仔细分析了一下,“齿轮”修改返回值的公式如下: - S6 y2 O$ B6 g9 [8 x2 ]# L8 p
倍数*(返回值-第一次调用timeGetTime的返回值)/ x, @( Y( e7 J
修改后的返回值=---------------------------------------------------+上一次修改后的返回值
4 g9 \3 v! T& {+ ~5 v5 q 100000
% g, [" m4 m: G4 Q% a# k* ? 公式中“上次修改后的返回值”是自己猜测的未经证实,仅供参考。 k$ e* @: j" x$ u8 _7 [
代码分析已经进行一部分了,可我之前的疑问仍未解决,“齿轮”是怎么将代码映2 [5 A/ l' E' H) \: ]
射的?又是怎么得到修改代码的权限的? ; u7 R- F# t! T; | p6 g& _
既然“齿轮”中调用了CreateFileMappingA,我想其安装调用门,映射代码的初始化部分应该就在调用该函数代码的附近。好,沿着这个思路,呼出Softice,在CreateF ileMappingA处设置断点,将“齿轮”关闭后再运行。Softice跳出,停在了CreateFile MappingA处,F11回到“齿轮”的代码。看到了“齿轮”调用CreateFileMappingA的形式如下:
" ~0 A7 Q8 [! E8 ? CreateFileMappingA(FF,0,4,0,10000,0);* e. F( T9 a) {4 m/ l
可见“齿轮”创建了长度为0x10000的映射文件,继续,“齿轮”接着又调用MapViewOfFileEx,调用形式如下:5 H9 N/ W% g- z* _" n3 {
MapViewOfFileEx(EDX,2,0,0,0,EAX);
" ?9 |9 q3 M1 y: L //EDX为CreateFileMappingA返回的映射文件句柄. P1 `; x. v5 c' K' _
//EAX为申请映射代码的基址,第一次调用时EAX为0x8000 0000
- J% k) c, u& K0 D0 U' V 这里就是关键了,“齿轮”要将映射文件映射至基址为0x8000 0000 的内存空间中,可并不见得Windows就真的允许其映射呀?果然,“齿轮”在在调用之后判断返回值是否有效,无效则将上次申请的基址加上0x1000,再次调用MapViewOfFileEx,一直循环到成功为止,再将返回的地址保存。
$ s2 J# U t- e% \; h- `$ w( g3 P 接下来“齿轮”将原“齿轮”exe中的截获API的代码逐字节拷贝到映射区域去。至此,“齿轮”已经将关键代码映射到2G以上线性地址中了。 : `0 B* U% b9 w ~7 b* M
我再F8,哈哈,和熟悉的SGDT指令打了个照面。“齿轮”保存全局描述符表线性基 址,再用SLDT指令保存局部描述符表索引,计算出LDT基址。接着呢“齿轮”在局部描述表中创建了一个特权等级为0的代码段指向需要利用Ring0特权修改代码的“齿轮”自己的代码,并把局部描述表中索引为2的调用门指向的地址改为“齿轮”映射到高于2G的代码。
" P( X( r, |0 D7 Z( w 然后“齿轮”依次调用各时间相关的API,保存其返回值留做计算返回时结果用。5 `3 _- ?$ r3 a5 F! G5 a" ]) x* t# p, `
“齿轮”又依次调用映射到高于2G的代码修改各API的首指令。到了这里,“齿轮”的初始化部分就结束了,只等着还蒙在鼓里的游戏上钩啦,哈哈! 5 s% X: h1 o2 i+ W
结束代码只不过是作些恢复工作罢了,仅仅是初始化代码的逆过程,所以就不再赘述(其实是我自己懒得看了,^_^!). b& s, q9 M9 i- c( i8 O3 v
至此,我对“齿轮”的加速原理已有大致的了解,深刻感受到“齿轮”代码的精巧, 所以觉得有必要将"齿轮"中所运用到的一些技巧作一个总结: " ~+ y4 L' ?# i: h# Y( B
1.基址无关代码的编写
5 `! t) Z8 H9 {# ? 姑且以上面一句话作标题,^_^。看了“齿轮”的初始化代码,知道其映射代码的基址差不多是随机的,那么“齿轮”是怎么保证映射后的代码能正常运行的呢?如果 代码是完全顺序执行的倒没什么问题,但如果要调用自己映射代码中的子程序呢?呵呵,就只有运行时计算出子程序的入口地址并调用了,不过还是要先得到映射代码所在的地址才行。“齿轮”简单地用两条指令就得到当前正在执行的指令的地址,具体如下(地址为假设的): - x: W% {# Z/ ^. o
0:0 call 54 K6 |' O! B8 x9 \( Y
0:5 pop esi # T& K9 x3 A/ h! u6 F
现在esi中的值就是5了,哈哈! 2 v* R# z5 Y3 K2 Y
这里的call用的是近调用,整条指令为E800000000,即为调用下一条指令.所进行的操作只不过是把下一条指令的地址入栈而已.再pop将返回地址(即pop指令本身的地址)取出.
4 X" L) W) \9 r1 J. {* _2.修改调用门,生成jmp指令,修改代码* h+ D& { N \7 z: m
这些都是高度依赖于CPU的操作,技巧性也很强,主要是钻了操作系统的漏洞。比如“齿轮”就是用SGDT,SLDT获得全局和局部描述符表基址来安装调用门,通过访问调用门来获取RING0权限作一些平时不为系统所允许的操作;而CIH病毒是用SIDT获得中断描述符表基址安装中断门然后出发软中断获取RING0权限的,原理都是一样的。这些在水木上讨论过很多遍,大家都很熟悉,所以也就不敢班门弄斧,写到此为止。
7 N4 f% U7 j5 W6 z. E) @0 f6 H8 w3.64K代码编写
/ [+ C- j& y, G! L, o( b, _ 由调用CreateFileMappingA函数参数可知“齿轮”只映射10000(64K)大小的区域,所以其映射在2G之上的代码和数据决不能大于64K。我想作者之所以选择64K为映射区域的大小,可能是与调用子程序或数据时容易计算地址有关。在映射代码的任意一处得到当前指令地址之后将其低16位置0即可得到映射代码的基地址,再加上子程序入口或数据的偏移即可求得其绝对地址。
) a- v P) v& }" c z9 r/ p+ r. z! B 4 ]9 a$ a1 ^! E, L/ H2 M* H+ y
我的评论:
: T( o- m" t3 G 一句话:佩服“齿轮”的作者王荣先生。 ( a8 E2 t" T: {8 h* J
“齿轮”的代码表现他对windows运行机制的深刻理解以及深厚的汇编功底还有丰富的想象力。对我来说“齿轮”仿佛就是一件精美的艺术品,每个细处都很值得玩味一 番,所以我才在看过“齿轮”代码之后有了把我的分析过程用笔写下来的冲动。但同时 我又不得不承认“齿轮”的功能的实现是依靠其高度技巧化的代码实现的,换句话说就 是这种的方法局限性实在是太大了。不就是截获API嘛,用的着这么麻烦吗?
# ~2 p5 p+ G* V7 A0 t; n$ F 为了证实自己的想法,我在Codeguru上直接找了个HOOK API 的代码,该代码是通过安装WH_CBT类型全局钩子在所有被插入DLL的进程中修改进程PE映像的输入节达到截获API的(这种方法在《windows核心编程》中有详细说明)。把代码稍做修改,就能工作了(在星际争霸下试过,可以改变游戏速度)。尽管只在98下试过,但我觉得肯定也能在2000下用,因为代码中只用了一两句汇编指令,而且整个程序都是在RING3下运行的,没有作出什么出轨的举动。当然这种方法也有缺点,就是对用Loadlibrary加载WINMM.dll再用GetProcAddress获取timeGetTime地址的API调用不起作用(原因在《windows核心编程》中有说明)。
5 E9 t+ j4 j8 T# O1 v* B* t 我打算在将测试用程序稍稍完善后再公布源代码,届时欢迎大家下载。
p: d+ [* f( e5 |' ~6 U4 f" B1 N / m' `0 M, u" x1 {6 e7 F
我的感谢:
) R& T$ n: `6 @0 L, G1 E& j" x2 }; [ 在我彻底弄清“齿轮”的代码之后,已经是第三天的上午了,无奈自己才疏学浅,全不像《手记》的作者只花了一个晚上就弄清楚,我可是花了一个上午、两个下午、两个晚上才结束了战斗,实在是惭愧呀。 ) _/ T" r8 L1 }' X
自己之所以能自得其乐地坚持了两天多,是与寝室兄弟小强的支持分不开的。穷 困潦倒的我在这几天不知道总共抽了他多少支烟,无以为报,只有在这里说一声谢谢了!另外还要感谢sunlie非常地阅读本文,指出了原文中的错误并提出了非常宝贵的意见! " t4 C1 O. q8 Y$ ]( B/ ?4 f& V
最后要说的就是个人水平有限,文中难免出现错误,欢迎大家讨论!^_^
% ^; V) @9 m, X附A:7 |+ T9 j) v- m
使用工具:Softice for Windows98,W32Dasm,VisualC++ 6.0
! K& E2 }) u) u3 U 操作系统:Window98 2nd
* n, h3 M- j+ }; m$ N$ Q 分析目标:变速齿轮 for 98me 版本:0.221
2 h- c+ r4 _* I ^ 参考书籍或文章:( y2 q9 s, ?& s+ g* O4 L" Y0 Q
80x86汇编语言程序设计教程 杨季文等编著 清华大学出版社+ X8 {$ p0 F1 h8 r3 X# }+ x7 P
windows剖析--初始化篇及内核篇 清华大学出版社: o' f1 C, @" G. J: e( m, A
虚拟设备驱动程序开发. l( ~( I! B9 f$ b9 q, D/ e
intel 32位系统软件编程8 N0 C! W) e g8 M E
80x86指令参考手册
0 q; Y" J6 N. ^- G 《“变速齿轮”研究手记》 |