博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
C# 使用 iTextSharp 将 PDF 转换成 TXT 文本
阅读量:6230 次
发布时间:2019-06-21

本文共 823 字,大约阅读时间需要 2 分钟。

1             var pdfReader = new PdfReader("xxx.pdf"); 2              3             StreamWriter output = new StreamWriter(new FileStream("处理结果.txt", FileMode.Create)); 4  5             int pageCount = pdfReader.NumberOfPages; 6             for (int pg = 1; pg <= pageCount; pg++) 7             { 8                 ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); 9                 var value = PdfTextExtractor.GetTextFromPage(pdfReader, pg, strategy);10                 value = value.Replace(" ", "");11                 Console.WriteLine(value);12                 output.Write(value);13             }14 15             output.Flush();16             output.Close();17             Console.Write("处理完毕");18             Console.ReadLine();

 

该方法读出的汉字不会乱码。

转载于:https://www.cnblogs.com/Aaxuan/p/10545961.html

你可能感兴趣的文章
iperf 测试网络性能指标
查看>>
windows下安装mysql压缩包版[转]
查看>>
Emacs常用命令汇总
查看>>
从传统IT快速走向公共云计算
查看>>
小菜一步一步学数据结构之(一)基本概念和术语
查看>>
《Redis官方教程》Redis集群规范
查看>>
Mac下没有make命令解决办法
查看>>
DLL中传递STL参数
查看>>
postgresql 范围类型
查看>>
隐藏 tengine 和 tomcat 版本号
查看>>
非面试向跨域实践详解
查看>>
一个非常好看的图片选择框架LPhotoPicker,确定不来看看么
查看>>
线上压缩代码-定位错误
查看>>
一个简洁且强大的状态管理库 - iFlow
查看>>
IP地址转换函数——inet_pton inet_ntop inet_aton inet_addr inet_ntoa
查看>>
设计模式笔记---4. 装饰模式
查看>>
springmvc + mybatis + ehcache + redis 分布式架构
查看>>
爬虫学习日记(四)分析Freenium
查看>>
nginx事件模块 -- 第五篇 epoll add
查看>>
共享栈基本操作
查看>>