批量添加PDF目录/书签;自动爬取目录;提取pdf中的目录;图形化工具
pyinstaller -D -w -i "pdf.ico" PDF_MARKER.py -p C:\Users\SWEENEY_HE\PycharmProjects\PDF_MARKER_FINAL\venv\Lib\site-packages
使用说明
author:sweeneyhe
descreption: a tool to add contents/Catalogue/bookmark to a pdf
使用一个txt文件,内容如下:每行写一个索引,前面写索引名,后面写pdf中的实际页码。行与行之间按照目录级别进行缩进,同级目录缩进相同。每行后面使用任意大于一个空格或者制表符接页码
可以使用OCR(可以使用Adobe Acr0bat DC软件等)将原文目录转成文档,自行缩进编辑成txt,代码自动去除各种符号
识别+手动缩进+数字改正后的效果
最终效果:
自动获取基于爬虫爬取目录,由于只爬取了一个网站,书籍可能不全,不一定能够获得对应书籍的目录,尽量使用ISBN获取更为准确。也可以自己上当当等网站手动复制目录。 使用Notepad++等软件进行编辑可以多选缩进。
自动获取的目录存在于选择目录文件所示的路径中,文件名为content-数字.txt,点击选择目录默认打开的就是获取到的目录文件路径。如果不是,自行复制路径打开即可。
导出pdf的目录为txt格式,即逆操作。操作步骤:
1.先选择PDF文件,
2.文件->导出目录
3.如果导出成功,默认txt文件在pdf所在路径下
由于添加目录懒得做多线程,所以点击运行后大的pdf可能会卡顿,最好不要动鼠标,因为窗口和添加目录的处理过程在同一线程,否则会出现未响应等情况,出现了也没关系,选择等待响应等一会就好了。
PYPDF2的问题。详细解决方法参考提示窗口,主要原因是已经用其他软件添加过目录,如果在其他软件中删除所有目录还是不行的话。目前已知的解决方式是:使用Adobe Acrobat Pro DC等软件将原PDF文件进行优化还是压缩其中一个,生成一个新的PDF文件。