如何利用Python抓取PDF中的某些内容
1、这却是一个大难题因为PDF中没有一个内部的表示方式来表示一个表格这使得表格数据很难被抽取出来做分析。camelot是Python的一个模块,它能够让任何人轻松地从PDF文件中提取表格数据。
2、参考下PDFMiner,里面有一个pdf2txt.py,可以抽取中文,试的时候最好保存成文件,如果在控制台输出,会因为编码问题而显示乱码。
3、这里提示语法错误。因为你没有指定文件的编码,默认情况下不能用中文。
本文由 阿林 文章来源于网络如需要删除联系作者:http://www.youhonglin.com/19247.html