PengchengHu的个人博客分享 http://blog.sciencenet.cn/u/PengchengHu

博文

Python爬PDF

已有 1095 次阅读 2020-8-21 13:05 |个人分类:科研笔记|系统分类:科研笔记| Python爬虫

    最近用Python爬了两本书,分享下代码,仅作为交流和分享。

    #下载#
    import requests #先导入库
    import re #正则表达式
    import os #创建路径
    import random #导入随机函数(0-1)
    #import string

   #输入储存路径和书名

    root = input("Root_path = ")
    name = input("Book_name = ")
    path = root+'/'+name
    isExists=os.path.exists(path) #判断是否存在
    if isExists: # 如果目录存在则不创建,并提示目录已存在
        print(path+' 目录已存在')
    else:
        os.makedirs(path)# 如果不存在则创建目录
        print(path+' 创建成功')

    

    #输入获取图片的src地址,有些src是分开的,所以需要注意下

    src = input("src = ")
    url = src

    

    #这里不分享自动获取网页内容的代码了,仅提供单页下载保存方式

    #开始请求网址并下载

    page = 0001#第一页的图片名称

    filename = 'D:\\Downloads\\'+name+'\\'+page+'.png' #存储位置
        try:

        #爬的时候建议设置下相应时间,毕竟爬虫会增加网站的负荷

            response = requests.get(link[url],timeout=(random.random()*random.random()*30))
            file = open(filename[i],'wb')
            file.write(response.content) #写入文件
            file.close()#关闭操作
        except:
            print("下载完成!")


    #各种图片融合成一个pdf#

    from PIL import Image
    import os
    import re

    path = root+'/'+name+'/'
    Files = os.listdir(path)
    
    #转化
    file_list = sorted(os.listdir(path))
    pic_name = []
    im_list = []
    for x in file_list:
        if "jpg" in x or 'png' in x or 'jpeg' in x:
            pic_name.append(x)
    new_pic = []
    for x in pic_name:
        if "jpg" in x:
            new_pic.append(x)
    for x in pic_name:
        if "png" in x:
            new_pic.append(x)
           
    im1 = Image.open(os.path.join(path,new_pic[0]))
    new_pic.pop(0)
    for i in new_pic:
        img = Image.open(os.path.join(path,i))
        img.getpalette()
        if img.mode == "RGBA":
            img = img.convert('RGB')
            im_list.append(img)
        else:
            im_list.append(img)
    
    save_path = input("保存路径 = ")
    pdf_name = name        
    im1.save(save_path+pdf_name+'.pdf', "PDF", resolution=100.0, save_all=True, append_images=im_list)
    print(pdf_name+"已经生成!")


部分代码主要源于网络引用,对此表示感谢。

有些未能溯源找到原网址,表示歉意,若有侵权请与我联系,也欢迎读者指出引用出处,我将其链接附上。

图片融合成PDF:

来源于,原文链接:https://blog.csdn.net/weixin_38582851/article/details/90443987



https://blog.sciencenet.cn/blog-3422975-1247282.html

上一篇:快毕业了,此文纪念一下

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的其他最新博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-12-1 21:06

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部