- 在线时间
- 13 小时
- 最后登录
- 2013-12-8
- 注册时间
- 2010-5-13
- 听众数
- 3
- 收听数
- 0
- 能力
- 0 分
- 体力
- 399 点
- 威望
- 11 点
- 阅读权限
- 30
- 积分
- 282
- 相册
- 0
- 日志
- 0
- 记录
- 0
- 帖子
- 97
- 主题
- 45
- 精华
- 0
- 分享
- 0
- 好友
- 1
升级   91% TA的每日心情 | 难过 2012-8-27 18:22 |
|---|
签到天数: 1 天 [LV.1]初来乍到
|
本帖最后由 forcal 于 2010-10-12 21:46 编辑 ( L' F( P* U$ w7 G; b& E! ~) B" [
, U% a X6 U& q5 _8 Y! @& E9 P8 {5 K
我正在练手设计的FcMath库也打算以矩阵运算为基础,设计一些专门的函数对数组元素集中运算,运行效率确实有所提高(甚至有些涉及矩阵的算法比matlab还快),代码也简洁了,但不知这是不是矢量化?' o @2 C& O. x' V
8 ^2 W, b1 U3 ~' A脚本运行效率应该取决于函数调度效率、对象管理效率和函数内部算法的实现。) B( q, J& O1 `+ C7 L0 t& i
: z p* z7 X/ Z( H8 C& U
我感觉,matlab的函数调度效率较低,对象管理效率这个不好说,但一些函数内部的设计比较优秀。故有些Forcal代码比matlab快,而有些慢。
" m7 G; |$ u. Q" o" G& [) ^6 @9 q; W$ V9 X
以下例子体现了Forcal和matlab的效率差别所在。9 g! P6 d% J* l: C9 s0 Q
. t& N5 {5 U f; t
这个matlab程序段是网友lin2009 给出的,理论结果是每个元素均为275000。- clear all
* ?9 g* T8 |8 X+ t/ j! g, }* A - clc7 N' }/ n' G# t. i' B- q6 g, K
- tic @\" v: n$ s\" c0 O5 i\" b0 N\" \5 l! {& z; a
- k = zeros(5,5); % //生成5×5全0矩阵8 I. ~+ l# y+ T- `5 R* b! Q6 o
- % 循环计算以下程序段1000 00次:
+ \5 f6 t; j% N) V+ G' |2 d - for m = 1:1000 00
+ J4 D; N: g( e! p+ M! g - a = rand(5,7);
* _1 ^\" ]! S$ K7 d - b = rand(7,5);%//生成5×7矩阵a,7×5矩阵b,用0~1之间的随机数初始化! x6 }. |. }( X/ s/ d
- k = k + a * b + a(1:5, 2:6) * b(2:6, 1:5) - a(:, 7) * b(3, :);
\" ?\" t1 D, Q$ ~2 U% \3 D2 ~9 X - end
0 o# E h# x5 ]\" p; A2 G - k
; N' B1 d2 J( P: g - toc
复制代码
% i: p7 G0 d6 C# t, Z; g4 h$ p3 B0 S! vForcal代码1:运行稍快的代码,比matlab约快10%吧?
' o+ Q3 G- ?) n, h/ I/ p - !using["math","sys"];
- 7 p x0 c; ^9 y. ?0 I9 x
- mvar:0 z+ `+ U4 m9 a$ D: v
- t0=clock(),
- & U- J: q1 I' J& K0 H7 ^
- oo{k=zeros[5,5]},
- 3 }) ], \\\" c7 w8 S0 m& Z
- i=0,((i++)<100000).while{2 y/ h3 W( |# u
- oo{
- 1 T- r% p+ `5 U1 K
- a=rand[5,7], b=rand[7,5],' R- Z4 B' z' Y- \
- k.oset[k+a*b+a.subg(0,4:1,5)*b.subg(1,5:0,4)-a.subg(neg:6)*b.subg(3:neg)]
- $ N, ^# T0 m% f8 \
- }8 N1 B& z: k/ M5 A: f, x( f
- }, j& ]7 O! G) t. a/ Z
- k.outm(),- i/ Y\\" d6 R\\" I3 ~9 F+ q
- [clock()-t0]/1000;
在我的电脑上运行时间为3.344秒。- G: O0 J" f* \
/ U7 ]4 o+ }0 p* {
Forcal代码2:比较好看些的代码,似乎也比matlab稍快吧?
* w3 S9 \1 i! v/ g6 Y/ K - !using["math","sys"];+ g% |5 T. a( y9 i) D
- (:t0,k,i,a,b)=
- 8 ?& T) \( ~\\" x3 R( J
- {; O) Y/ r- r( @% X9 {4 {
- t0=clock(),5 q: }7 I; G# X( [3 J$ x
- oo{k=zeros[5,5]},/ O8 e2 K5 n. T3 r
- i=0,((i++)<100000).while{
- ) ~9 i8 J. v9 X7 W2 Q7 o4 A
- oo{
- 2 `$ c; t C1 w2 ]
- a=rand[5,7], b=rand[7,5],
- 4 Y# B% {# u. m3 ~* w) a& ?
- k.=k+a*b+a(0,4:1,5)*b(1,5:0,4)-a(neg:6)*b(3:neg)\\" n! O9 {+ s/ }4 g0 e/ A; V
- }* h2 g* ]! S, Z r \\\" [
- },
- 5 g! [) Q4 k* h1 P2 \% h
- k.outm(),
- 0 @; ?) ~& h) ^. H4 v
- [clock()-t0]/1000
- : U6 R# r! i( {; `7 a
- };
在我的电脑上运行时间为3.579秒。
% c3 I& c; ^: g6 E; m5 Z. Q& |& p) N$ \" b/ M4 Y8 M1 G
例子2:
R! k* Q1 P. n8 M; V一段程序的Forcal实现:! [' B8 z+ @ i0 G; L8 l
- //用C++代码描述为:
- w+ Q0 _, m3 Z s - s=0.0; $ B& Y9 A\" ], X% |$ ^% p# Q; q
- for(x=0.0;x<=1.0;x=x+0.0011)
. }; H0 o7 n! L; S7 E - {
! k# {8 F. Q. X6 l/ h& F/ B - for(y=1.0;y<=2.0;y=y+0.0009)
9 r9 h% _5 X$ P! o - {
( s! ~% y/ I/ ^: h - s=s+cos(1-sin(1.2*x^(y/2)+cos(1-sin(1.2*y^(x/2)))));* w( \' e( o, U: S\" Y2 d
- }
\" r& m5 X: J5 } |2 \ - }
复制代码 结果:
( x6 `) G' U9 b$ j5 Z R: h0 E1008606.649474412 a+ M# o8 k$ ]! U. [) B
0.609 //时间5 r8 Y1 H' h n6 \7 s
_1 y, R! r4 P/ R- b
这个matlab程序段是网友yycs001给出的。
2 A8 C" `" m0 I3 s' ] I" c- %file speedtest.m* k5 i2 J5 l. }- R; w1 N1 _ a& V
- function speedtest
+ Q, J `/ a8 J5 n - format long
& ~7 J. L# ^; y- R - tic
3 A# r+ \( s. ~ - [x,y]=meshgrid(0:0.0011:1,1:0.0009:2);
% ], m\" f$ g- h# g/ S* A+ J: S - s=sum(sum(cos(1-sin(1.2*x.^(y/2)+cos(1-sin(1.2*y.^(x/2))))))): z( E, D7 A! d9 |9 U2 h
- toc
复制代码 ; d- u; r" [2 |7 B t; ^
Forcal代码1:**数组求和函数Sum,完全矢量化的代码
# j# M5 h$ }% E. ^ - !using["math","sys"];3 x- A2 N2 N- M+ O
- mvar:8 J\\" K3 A4 y6 u. }) Y5 R$ |+ T
- t=clock(),
- ; y+ ^- a\\" R; h/ V9 K* i0 ^5 y8 u/ J
- oo{4 r% @: [. O3 N* Y D
- ndgrid[linspacex(0,1,0.0011),linspacex(1,2,0.0009),&x,&y],
- + d! V) o9 N9 U3 u3 s
- Sum[Cos(rn(1)-Sin(rn(1.2)*x^(y/rn(2))+Cos(rn(1)-Sin(rn(1.2)*y^(x/rn(2)))))),0]1 P( E v! A( {; k! t, s\\" e1 z
- };
- 6 F) I8 m0 f% z$ @9 Y R
- [clock()-t]/1000;
结果:
4 A7 @5 ~' U; Z+ B0 o+ n0 Q0 v. R1008606.649474416 C: W K( v$ p
0.625 //时间* r8 \7 d6 U- _/ w, f" D5 @+ i
- X i; z& `0 o
或者这个,与上面效率差别不大:6 k* ? I2 {6 w# F
 - !using["math","sys"];
- # }& Y/ Q8 m) r7 ]4 N: U
- mvar:- c% {$ T2 @8 w7 O
- t=clock(),
- ! a+ A/ o7 y3 s$ j: G$ C1 z; ]
- oo{
- |& S8 y/ v8 k; Q& ]6 e
- ndgrid[linspacex(0,1,0.0011),linspacex(1,2,0.0009),&x,&y],
- ' o1 V\\" c; A. Y3 l
- Sum[Sum[Cos(rn(1)-Sin(rn(1.2)*x^(y/rn(2))+Cos(rn(1)-Sin(rn(1.2)*y^(x/rn(2))))))]]
- 9 m( }: l% [* V$ Q- j
- };
- % _6 N, b. J8 X m4 z% Y
- [clock()-t]/1000;
x4 k! _$ {) Y' N5 ]9 B+ U. P
Forcal代码2:求和函数sum,非矢量化代码8 j+ l( b( I3 Z2 x+ }# @
- f(x,y)=cos(1-sin(1.2*x^(y/2)+cos(1-sin(1.2*y^(x/2)))));
' V' g' |1 X# L) u* O r6 R - sum["f",0,1,0.0011,1,2,0.0009];
复制代码 结果:1 J8 h2 C5 A: ]) F0 F) [& z
1008606.649474416 _$ h) ~% s% J
0.719 //时间0 M7 n8 }) l! _
& ]' u" n& z& e) jForcal代码3:while循环
& t* x3 B) j- K& S' n- mvar:
2 G# A$ Y% V6 p) c - t=sys::clock();9 @6 P- V4 j8 e5 x. E; j! j. k
- s=0,x=0,
. x5 `) L\" u- ^\" T$ D - while{x<=1, //while循环算法;
* j' L( j) g/ ~% e4 Q6 Z - y=1,
; `3 G: A/ ^; x5 \, H. \ - while{y<=2, / a8 K* }5 j( n: ~( H
- s=s+cos(1-sin(1.2*x^(y/2)+cos(1-sin(1.2*y^(x/2))))),
6 ~4 l) R2 a% k - y=y+0.0009 8 l) M8 l\" i5 L2 `: ?9 c
- },
x: M4 G- b. Q\" z: }5 F! g1 E - x=x+0.0011 9 F& @2 p7 D: A) I
- }, # c# u& A3 A6 ?. m( B$ d7 j
- s;( u' p! J1 F, t& \
- [sys::clock()-t]/1000;
复制代码 结果:
$ z+ T8 `* x6 j4 C+ q. G; M) n7 u& R1008606.64947441
. b1 e( |& F1 ?2 I0.734 //时间
, Q5 }0 d: Y- u4 n
0 z7 J* r1 ?+ F. c: N大家可下载OpenFC进行测试:http://www.forcal.net/xiazai/forcal9/openfc32w.rar
0 \4 ?. Q% w" P- B# Q& r& [( \; _! i \( B4 j9 C6 b
注意Forcal的矢量化代码第一次运行有时效率较低。
2 R P) E% A/ e( y% j# K4 i8 B& p6 O
例子1中Forcal和matlab都是矢量化代码,但matlab跑不过Forcal。该例子的特点是函数调用频繁,临时变量生成多,但矩阵很小,矩阵的各种函数运行时耗时较少。故说明Forcal函数调用+变量管理效率优于matlab。
0 l) X% @2 E" v) U7 G# X* u2 }
0 }% c, k: I C& p3 a例子2中Forcal的矢量化代码是最快的,但与matlab的矢量化代码相比仍有差距。该例子的特点是函数调用少,临时变量也少,但矩阵大。故说明Forcal的各种矩阵函数Sin、Cos及矩阵的加减运算等函数的内部设计不及matlab。* W6 _$ f7 \8 y8 H$ s% z. l# w
% w; ], j% Z8 F% ^. b; o8 J
如能在函数内部设计上下点功夫,例子2超越matlab也是可能的。在这方面,期待高手们的指点。
4 Y7 p8 F! c7 V' l- g/ x
7 ^4 {+ E! w2 M5 g( B p* P: H如果例子2速度也超越了matlab ,matlab矢量化的神秘面纱就揭开了。3 E2 ^6 P% t) [9 @* k- Z$ I- l
+ N! N0 I. F2 V/ X1 n7 q
顺便说一下,例子1如果用C++的运算符重载来实现,速度将比Forcal慢一些,也就是说,在涉及运算符重载时,脚本的效率有时比C++还要高些。
0 ^ B" {$ C* R8 O) T |
|