使用HttpHandler解析并展示PDF文档内容（转载）

it2024-11-09 72

使用HttpHandler解析并展示PDF文档内容

2009-03-11 11:08 by LanceZhang, 2510 visits, 网摘, 收藏, 编辑

前言

如果我们想将服务端的PDF文档内容展示给客户端，往往会通过URL直接访问的方式。这样一来，PDF文档就会毫无保留的保存到客户端去，通过浏览器的PDF插件，客户端可以随意拷贝PDF的副本。（如下图）

本文通过HttpHandler和开源控件PDFBox来对PDF文档进行访问控制，只向客户端解析并展示PDF的内容而非PDF文件本身。

PDF解析

目前有许多PDF解析组件，国内比较常用的是iTextSharp，该控件早期从JAVA移植过来，完全支持.NET平台，在创建PDF文档方面非常灵活易用。然而在读取解析PDF时却显得力不从心，只有少数复杂难用的类可以让我们读取PDF。故不适合本案。

PDFBox在此方面表现却非常突出，同样，它也是从java平台移植过来的，常用来作为Lucene的PDF索引器。目前，它的开源项目中已经包含了通过IKVM.NET（IKVM.NET is an implementation of Java for Mono and the Microsoft .NET Framework.）封装，而支持.NET的组件。

PDFBox对PDF的读取解析非常简单，只用如下代码即可完成：

private static string parseUsingPDFBox( string filename){ PDDocument doc = PDDocument.load(filename); PDFTextStripper stripper = new PDFTextStripper(); return stripper.getText(doc);}

故我们选取PDFBox作为PDF解析器。

编写HttpHandler

接下来，我们新建一个类库项目，在其中创建PDFHandler类，实现IHttpHandler接口，用来作为.pdf文件的handler。

主要完成的步骤如下：

1. 为类库和网站添加如下引用：

PDFBox-0.7.2.dllIKVM.GNU.Classpath.dll

并将下面两个类库也复制到网站的Bin文件夹中：

FontBox-0.1.0-dev.dllIKVM.Runtime.dll

2. 编写PDFHandler类：

using System; using System.Collections.Generic; using System.Text; using System.Web; using org.pdfbox.pdmodel; using org.pdfbox.util; using System.Web.UI.WebControls; using System.Web.UI; using System.IO; namespace LanceZhang.HTTP{ public class PDFHandler:IHttpHandler { #region IHttpHandler Members public bool IsReusable { get { return true ; } } public void ProcessRequest(HttpContext context) { // 获取请求的文件路径，如C:\www\a.pdf string path = context.Request.MapPath(context.Request.Path); // 创建PDF实体和文字解析器 PDDocument doc = PDDocument.load(path); PDFTextStripper stripper = new PDFTextStripper(); // 创建一个TextBox用来显示PDF内容 TextBox tb = new TextBox(); tb.Style.Add( " width " , " 100% " ); tb.Style.Add( " height " , " 100% " ); tb.TextMode = TextBoxMode.MultiLine; tb.Text = stripper.getText(doc); // 将TextBox render出来 context.Response.Write(RenderControlAsString(tb)); } public string RenderControlAsString(Control ctl) { StringWriter sw = new StringWriter(); HtmlTextWriter writer = new HtmlTextWriter(sw); ctl.RenderControl(writer); return sw.ToString(); } #endregion }}

部署HttpHandler

1. 编码完成后，我们编译Handler类库项目，并添加网站对该项目的引用。

2. 要使客户端对*.pdf文件的请求被handler处理，我们还需要在web.config中配置刚刚编写好的handler：

< system.web > < httpHandlers > < add verb ="*" path ="*.pdf" type ="LanceZhang.HTTP.PDFHandler,LanceZhang.HTTP" /> </ httpHandlers > </ system.web >

3. 这时，使用Visual Studio自带的ASP.NET Deployment Server已经可以成功运行程序了。然而，如果将网站部署到IIS中，我们还需要对IIS的应用程序配置做出修改，在程序映射中，使用aspnet_isapi.dll来处理.pdf文件：

OK，接下来启动IIS，浏览“CardSpace.pdf”文件，我们就可以得到下面的效果：

下载PDFBox类库

download the PDFBox package

转载自：http://www.cnblogs.com/blodfox777/archive/2009/03/11/1408568.html

PS: 开阔思路，不推荐该方式，因为只能读取文本，图片无法显示；而且会破坏文档的结构，用于索引倒是可以，但用于索引时好像会解析出现乱码。

转载于:https://www.cnblogs.com/wuhenke/archive/2009/11/11/1601415.html

相关资源：数据结构—成绩单生成器

最新回复(0)