博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【转】Python读取PDF文档,输出内容
阅读量:4975 次
发布时间:2019-06-12

本文共 1566 字,大约阅读时间需要 5 分钟。

Python3读取pdf文档,输出内容(txt)

 

from urllib.request import urlopenfrom pdfminer.pdfinterp import PDFResourceManager,process_pdffrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom io import StringIOfrom io import openimport osimport redef readPDF(pdfFile):    rsrcmgr = PDFResourceManager()    retstr = StringIO()    laparams = LAParams()    device = TextConverter(rsrcmgr, retstr, laparams=laparams)    process_pdf(rsrcmgr, device, pdfFile)    device.close()    content = retstr.getvalue()    retstr.close()    return contentif __name__ == '__main__':    # pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")    filesdir = "D:\\0.shenma\\01.聊城资料\政府工作报告\\2019政府工作报告全文"    os.chdir(filesdir)    files = os.listdir()    print(files)    for file in files:        if file.endswith(".pdf"):            pdfFile = open(file, 'rb')            outputString = readPDF(pdfFile)            # print(outputString)            try:                outputString2 = outputString.replace("\n","")                gdp = re.findall("生产总值(完成)?(.+?)亿元", outputString2)[0][1]                print(file,"--","生产总值完成","--", gdp)                ggyssr = re.findall("公共预算收入(完成)?(.+?),", outputString2)[0][1]                print(file, "--", "一般公共预算收入完成","--", ggyssr)            except:                print(file, "--", "no data")            # fh = open(file+".txt", 'w+', encoding="utf-8")            # fh.write(outputString2)            # fh.close()            pdfFile.close()

 

【转自】:

 

仅做记录,供查。

转载于:https://www.cnblogs.com/zhzhang/p/10882391.html

你可能感兴趣的文章
纵越6省1市-重新启动
查看>>
hive安装以及hive on spark
查看>>
jz1074 【基础】寻找2的幂
查看>>
Wannafly模拟赛5 A 思维 D 暴力
查看>>
【Linux开发】CCS远程调试ARM,AM4378
查看>>
Linux之ssh服务介绍
查看>>
排序:冒泡排序
查看>>
Java中instanceof关键字的用法总结
查看>>
引用类型-Function类型
查看>>
(转)Android 仿订单出票效果 (附DEMO)
查看>>
数据库多张表导出到excel
查看>>
微信小程序去除button默认样式
查看>>
Where does Visual Studio look for C++ Header files?
查看>>
Java打包可执行jar包 包含外部文件
查看>>
Windows Phone开发(37):动画之ColorAnimation
查看>>
js中escape,encodeURI,encodeURIComponent 区别(转)
查看>>
sass学习笔记-安装
查看>>
Flask (二) cookie 与 session 模型
查看>>
修改添加网址的教程文件名
查看>>
[BZOJ 1017][JSOI2008]魔兽地图DotR(树形Dp)
查看>>