><A>1 .用jacob</A>
>jacob jar与dll文件下载: <a href="http://www.matrix.org.cn/down_view.asp?id=13" target="_blank" >http://www.matrix.org.cn/down_view.asp?id=13</A> </P>
>下载了jacob并放到指定的路径之后(dll放到path,jar文件放到classpath),就可以写你自己的抽取程序了,下面是一个简单的例子: </P>) w2 |% Z: m1 v7 D
>
RE><CODE>: U) R3 G0 m8 D+ [; o4 b0 z( W
>Title: pdf extraction</P>
>Description: email:chris@matrix.org.cn</P>
>Copyright: Matrix Copyright (c) 2003</P>
>Company: Matrix.org.cn</P>
><A>2. 用apache的poi来抽取word,excel。</A>
>下载经过封装后的poi包: <a href="http://www.matrix.org.cn/down_view.asp?id=14" target="_blank" >http://www.matrix.org.cn/down_view.asp?id=14</A> </P>
>下载之后,放到你的classpath就可以了,下面是如何使用它的一个例子: </P>! `( [6 ~5 A: K
>. E! N# t. v; O9 V
RE><CODE>
>Title: word extraction</P>
>Description: email:chris@matrix.org.cn</P>3 F+ ?2 q" H) |, u
>Copyright: Matrix Copyright (c) 2003</P>7 ?2 R0 @) Q, T! G
>Company: Matrix.org.cn</P>
><A>3. pdfbox-用来抽取pdf文件</A>
>下面是一个如何使用pdfbox抽取pdf文件的例子: </P># G+ R9 }7 j# }# v
>, T3 e% R" p) u; L2 J
RE><CODE>
>Title: pdf extraction</P>) E2 h D7 F0 y
>Description: email:chris@matrix.org.cn</P>
>Copyright: Matrix Copyright (c) 2003</P>( p, |2 y( T) v! E7 l
>Company: Matrix.org.cn</P>
><A>4. 抽取支持中文的pdf文件-xpdf</A>
>下载xpdf函数包: <a href="http://www.matrix.org.cn/down_view.asp?id=15" target="_blank" >http://www.matrix.org.cn/down_view.asp?id=15</A> </P>
>同时需要下载支持中文的补丁包: <a href="http://www.matrix.org.cn/down_view.asp?id=16" target="_blank" >http://www.matrix.org.cn/down_view.asp?id=16</A> </P>' h8 C' I0 p4 v9 b. |( ]
>按照readme放好中文的patch,就可以开始写调用本地方法的java程序了 </P>" K( n1 t, c3 r3 y/ r| 欢迎光临 数学建模社区-数学中国 (http://www.madio.net/) | Powered by Discuz! X2.5 |