在c#中如何从pdf中提取文字内容 - C# 论坛

brave2

等　级：新手上路
帖　子：16
专家分：0
注　册：2007-7-28

楼主

问题点数：0 回复次数：2

在c#中如何从pdf中提取文字内容

在c#中有什么办法提取pdf文件中的文字内容？

[[it] 本帖最后由 brave2 于 2008-6-1 22:22 编辑 [/it]]

搜索更多相关主题的帖子: pdf　文字　

2008-06-01 12:42

xiaoge123

等　级：新手上路
威　望：2
帖　子：13
专家分：1
注　册：2019-1-9

第 3 楼

得分:0

参考下面的代码提取pdf中的文本，还有就是需要用到Spire.PDF组件，在网上下一个就好

。
下载参考：https://www.

程序代码：

using System.Text;
using System.Xml;
using Spire.Pdf;
namespace _test
{
    class Program
    {
        static void Main(string[] args)
        {
            PdfDocument doc = new PdfDocument();

            //加载PDF文档
            doc.LoadFromFile("D:\\test.pdf");

            StringBuilder content = new StringBuilder();

            //提取PDF所有页的文本
            foreach (PdfPageBase page in doc.Pages)
            {
                content.Append(page.ExtractText());
            }

            String fileName = "D:\\获取文本.txt";
            File.WriteAllText(fileName, content.ToString());
            }
    }
}

2019-01-10 16:55