><A>1 .用jacob</A>
>jacob jar与dll文件下载: <a href="http://www.matrix.org.cn/down_view.asp?id=13" target="_blank" >http://www.matrix.org.cn/down_view.asp?id=13</A> </P>' B+ H6 h k" j/ w& m
>下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个简单的例子: </P>5 Y* _1 m- j! d/ F& z* i3 k* a
>
RE><CODE>- b8 g4 b4 w/ U
>Title: pdf extraction</P>) ?$ ?; }" l" J% m& X! q2 P# c$ O
>Description: email:chris@matrix.org.cn</P>" E% Z( n# v/ c- r F
>Copyright: Matrix Copyright (c) 2003</P>% n3 ~( E' y9 Y I
>Company: Matrix.org.cn</P>" z4 O% n( f8 _1 e ^
><A>2. 用apache的poi来抽取word,excel。</A>6 T1 d* y) s0 v5 A
>下载经过封装后的poi包: <a href="http://www.matrix.org.cn/down_view.asp?id=14" target="_blank" >http://www.matrix.org.cn/down_view.asp?id=14</A> </P>
>下载之后,放到你的classpath就可以了,下面是如何使用它的一个例子: </P>, d; N! y F7 @. C9 [) e; i
>8 Y4 K; O0 x. S+ e$ u* [
RE><CODE>( e0 }& {/ U1 R- u7 a" j) i
>Title: word extraction</P>8 L5 C, M- P8 f* Y6 J; h8 B
>Description: email:chris@matrix.org.cn</P>
>Copyright: Matrix Copyright (c) 2003</P>% |; h3 K3 x$ x& d
>Company: Matrix.org.cn</P>
><A>3. pdfbox-用来抽取pdf文件</A>& z% D/ I) g0 v' w1 a6 i
>下面是一个如何使用pdfbox抽取pdf文件的例子: </P>! \( K% ~8 \# Z) `# h- F' |
>, k5 v( J4 Q2 c% F! `$ v) B
RE><CODE>/ p, n0 ^" G# E6 [+ M; L
>Title: pdf extraction</P>
>Description: email:chris@matrix.org.cn</P>7 F/ X v0 K8 Q) K5 f6 \
>Copyright: Matrix Copyright (c) 2003</P>
>Company: Matrix.org.cn</P>
><A>4. 抽取支持中文的pdf文件-xpdf</A>* ~3 L" R6 W3 P( z
>下载xpdf函数包: <a href="http://www.matrix.org.cn/down_view.asp?id=15" target="_blank" >http://www.matrix.org.cn/down_view.asp?id=15</A> </P>
>同时需要下载支持中文的补丁包: <a href="http://www.matrix.org.cn/down_view.asp?id=16" target="_blank" >http://www.matrix.org.cn/down_view.asp?id=16</A> </P>& l1 w! H$ B( L, n/ c; c9 k
>按照readme放好中文的patch,就可以开始写调用本地方法的java程序了 </P>& ^4 H8 N9 b1 S% c. o| 欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) | Powered by Discuz! X2.5 |