使用HttpHandler解析并展示PDF文档内容(转载)

it2024-11-09  23

 

使用HttpHandler解析并展示PDF文档内容

2009-03-11 11:08 by LanceZhang, 2510 visits, 网摘, 收藏, 编辑

前言

如果我们想将服务端的PDF文档内容展示给客户端,往往会通过URL直接访问的方式。这样一来,PDF文档就会毫无保留的保存到客户端去,通过浏览器的PDF插件,客户端可以随意拷贝PDF的副本。(如下图)

本文通过HttpHandler和开源控件PDFBox来对PDF文档进行访问控制,只向客户端解析并展示PDF的内容而非PDF文件本身。

 

PDF解析

目前有许多PDF解析组件,国内比较常用的是iTextSharp,该控件早期从JAVA移植过来,完全支持.NET平台,在创建PDF文档方面非常灵活易用。然而在读取解析PDF时却显得力不从心,只有少数复杂难用的类可以让我们读取PDF。故不适合本案。

PDFBox在此方面表现却非常突出,同样,它也是从java平台移植过来的, 常用来作为Lucene的PDF索引器。目前,它的开源项目中已经包含了通过IKVM.NET(IKVM.NET is an implementation of Java for Mono and the Microsoft .NET Framework.)封装,而支持.NET的组件。

PDFBox对PDF的读取解析非常简单,只用如下代码即可完成:

private   static   string  parseUsingPDFBox( string  filename){    PDDocument doc  =  PDDocument.load(filename);    PDFTextStripper stripper  =   new  PDFTextStripper();     return  stripper.getText(doc);}

 

故我们选取PDFBox作为PDF解析器。

 

编写HttpHandler

接下来,我们新建一个类库项目,在其中创建PDFHandler类,实现IHttpHandler接口,用来作为.pdf文件的handler。

主要完成的步骤如下:

1. 为类库和网站添加如下引用:

PDFBox-0.7.2.dllIKVM.GNU.Classpath.dll

   并将下面两个类库也复制到网站的Bin文件夹中:

FontBox-0.1.0-dev.dllIKVM.Runtime.dll

2. 编写PDFHandler类:

using  System; using  System.Collections.Generic; using  System.Text; using  System.Web; using  org.pdfbox.pdmodel; using  org.pdfbox.util; using  System.Web.UI.WebControls; using  System.Web.UI; using  System.IO; namespace  LanceZhang.HTTP{     public   class  PDFHandler:IHttpHandler    {         #region  IHttpHandler Members          public   bool  IsReusable        {             get  {  return   true ; }        }         public   void  ProcessRequest(HttpContext context)        {             // 获取请求的文件路径,如C:\www\a.pdf              string  path  =  context.Request.MapPath(context.Request.Path);             // 创建PDF实体和文字解析器             PDDocument doc  =  PDDocument.load(path);            PDFTextStripper stripper  =   new  PDFTextStripper();             // 创建一个TextBox用来显示PDF内容             TextBox tb  =   new  TextBox();            tb.Style.Add( " width " , " 100% " );            tb.Style.Add( " height " " 100% " );            tb.TextMode  =  TextBoxMode.MultiLine;            tb.Text = stripper.getText(doc);             // 将TextBox render出来             context.Response.Write(RenderControlAsString(tb));        }         public   string  RenderControlAsString(Control ctl)        {            StringWriter sw  =   new  StringWriter();            HtmlTextWriter writer  =   new  HtmlTextWriter(sw);            ctl.RenderControl(writer);             return  sw.ToString();        }         #endregion     }}

 

部署HttpHandler

1.  编码完成后,我们编译Handler类库项目,并添加网站对该项目的引用。

2.  要使客户端对*.pdf文件的请求被handler处理,我们还需要在web.config中配置刚刚编写好的handler:

< system.web >      < httpHandlers >        < add  verb ="*"  path ="*.pdf"  type ="LanceZhang.HTTP.PDFHandler,LanceZhang.HTTP" />      </ httpHandlers > </ system.web >

 

3. 这时,使用Visual Studio自带的ASP.NET Deployment Server已经可以成功运行程序了。然而,如果将网站部署到IIS中,我们还需要对IIS的应用程序配置做出修改,在程序映射中,使用aspnet_isapi.dll来处理.pdf文件:

 

OK,接下来启动IIS,浏览“CardSpace.pdf”文件,我们就可以得到下面的效果:

 

下载PDFBox类库

download the PDFBox package

 

 

 

转载自:http://www.cnblogs.com/blodfox777/archive/2009/03/11/1408568.html

 

PS: 开阔思路,不推荐该方式,因为只能读取文本,图片无法显示;而且会破坏文档的结构,用于索引倒是可以,但用于索引时好像会解析出现乱码。

转载于:https://www.cnblogs.com/wuhenke/archive/2009/11/11/1601415.html

相关资源:数据结构—成绩单生成器
最新回复(0)