[辅助下载] 人民日报pdf电子版下载器v1.0.0
作者:精品资源网 日期:2024-03-17 10:49:02 浏览:42 分类:软件
这个是人民日报的官方电子版地址,可以在网页中查看。本软件只是方便下载到本地查看,只默认下载当日的报纸。
使用python语言编写,pyinstaller打包为exe程序,无任何添加后台功能,提供浏览和其他处理,开源python初学者代码,以供学习测试。
蓝奏云:https://www.lanzoub.com/ir67w1r5rx6f 密码:e5fn
使用方法:打开软件,选择目录,点击下载,你选择的目录就是下载保存的路径。
杀毒检测:因为打包安装超过了腾讯哈勃上传30M的限制,无法检测,使用火绒杀毒未发现风险。
python开源,以供学习。
[Python]
import os import PyPDF2 import random import time from urllib.parse import urljoin import re import requests from lxml import etree import shutil url = "http://paper.people.com.cn/rmrb/paperindex.htm" headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 SE 2.X MetaSr 1.0" } resp_init = requests.get(url, headers=headers) resp_init.encoding = "UTF-8" resp_content = resp_init.text resp_init.close() skip_url = re.compile(r'HTTP-EQUIV="REFRESH".*?URL=(?P<skip_url>.*?)"></head>', re.S) obj_list = skip_url.finditer(resp_content) for element in obj_list: ul = element.group("skip_url") skip_url = urljoin(url, ul) print(skip_url) resp_index = requests.get(skip_url, headers=headers) resp_index.encoding = "UTF-8" tree = etree.HTML(resp_index.text) resp_index.close() pdf_name = tree.xpath("//*[@id='main']/div[2]/div[1]/p[1]/text()")[0].strip().replace("\r\n", "") pdf_name = re.sub(r'\s+', ' ', pdf_name) print(pdf_name) pdf_href = tree.xpath("//*[@id='main']/div[1]/div[2]/p[2]/a/@href")[0] download_pdf_href = urljoin(skip_url, pdf_href) print(download_pdf_href) hrefs = tree.xpath("//*[@id='main']/div[2]/div[2]/div/div/a/@href") def save_pdf(download_path, pdf_href, pdf_detail_name): resp_download_pdf = requests.get(pdf_href, headers=headers) resp_download_pdf.close() # 创建文件夹,不存在就创建 path = f"{download_path}/temp_file" if not os.path.exists(path): os.mkdir(rf"{download_path}/temp_file") with open(f"{download_path}/temp_file/{pdf_detail_name}", mode="wb") as f: f.write(resp_download_pdf.content) print(f"{pdf_detail_name} 下载完成") def init_download(download_path): for href in hrefs: detail_page = urljoin(skip_url, href) resp_detail = requests.get(detail_page, headers=headers) resp_detail.encoding = "UTF-8" tree = etree.HTML(resp_detail.text) resp_detail.close() pdf_href = tree.xpath("//*[@id='main']/div[1]/div[2]/p[2]/a/@href")[0] download_pdf_href = urljoin(skip_url, pdf_href) pdf_detail_name = pdf_href.split("/")[-1] num = random.randint(1, 5) print(f"{detail_page}, {pdf_detail_name}, 随机暂停时间:{num}秒") save_pdf(download_path, download_pdf_href, pdf_detail_name) time.sleep(num) def merge_pdfs(file_list, output): pdf_merger = PyPDF2.PdfMerger() for file in file_list: with open(file, 'rb') as f: pdf_merger.append(f) with open(output, 'wb') as f: pdf_merger.write(f) if __name__ == '__main__': dir_path = "C:/Users/it/Desktop/人民日报" init_download(dir_path) # 获取文件夹下pdf文件 pdf_lst = [f for f in os.listdir(f"{dir_path}/temp_file") if f.endswith('.pdf')] # 合成绝对路径 file_list = [os.path.join(f"{dir_path}/temp_file", filename) for filename in pdf_lst] print(file_list) output = f'{dir_path}/{pdf_name}.pdf' merge_pdfs(file_list, output) if os.path.exists(f"{dir_path}/temp_file"): shutil.rmtree(f"{dir_path}/temp_file") print(f"下载已完成:{output}")
猜你还喜欢
- 03-26 [下载工具] 抖音采集/下载工具 TikTokDownloader 5.3
- 03-26 [电脑软件 / 苹果软件] 小白羊云盘(gaozhangmin) v3.12.6 阿里云盘客户端
- 03-26 [下载工具] XDown v2.0.8.2 免费无广告多线程下载工具
- 03-26 [3D建模] Blender v4.1.0 免费开源三维建模动画渲染软件
- 03-26 [图像绘制] Drawio v24.1.0 开源跨平台绘图软件官方中文版
- 03-25 [图像处理] ScreenToGif(Gif工具GIF录制软件) v2.41.0.0
- 03-22 [教育软件] 中小学电子教材下载 v1.0.2 开源免费 支持win+Mac
- 03-22 [语音合成] 免费微软语音合成工具 | TTS-Vue(1.9.15)
- 03-21 [辅助下载] XHS-Downloader (小红书作品下载工具) v1.8.0
- 03-14 [安卓软件] Android GKD 搞快点 v1.7.0-beta.3 自定义屏幕点击器
- 03-13 [系统辅助] ExplorerPatcher 22621.3007.63.4 恢复Win11高效设置
- 03-11 [文本编辑] Markdown笔记本 QOwnNotes v24.3.0 绿色版
取消回复欢迎 你 发表评论:
- 精品推荐!
-
- 最新文章
- 热门文章
- 热评文章
[转换工具] TMSpeech 1.0免费实时语音转字幕软件
[Android] 电工计算器 v10.0.2.1-h
[媒体编辑] pyVideoTrans视频翻译和配音 v1.42
[趣味工具] 【桌面动态小装扮】蝴蝶1.0、蟑螂1.2、苍蝇1.3
[游戏娱乐] 《拆迁》v20240502中文版
[辅助工具] 《小说角色更名器》+《小说广告清理器》V2.0.1
[Android] 人体穴位图解 v3.1.3(可离线)支持Android + ios
[辅助工具] 微信朋友圈导出工具 WechatMoments v0.0.1便携版
[AI工具] RWKV Runner-开箱即用的AI软件-聊天 写作 作曲一键完成
[Android] 小书包app开源小说v24.04.14内置书源版
[资料] [大学期末救急课] 猴博士+高斯课堂+斐多课堂,全集视频合集
[下载工具] Internet Download Manager 6.42.7 (IDM)
[漫画合集] 漫威 DC 漫画全集 PDF
[资料] 3000 套电影电视剧 LOGO 宣传片常用音效合集包
[辅助下载] 4K Video Downloader_v4.30.0.5655破解版
[图片浏览] 2345看图王 v11.3.0.10162 去广告绿色纯净版
[安卓软件] 扫描全能王APP v6.60.0.2403040000 破解版
[电脑软件 / 苹果软件] 洛雪音乐助手桌面版(免费音乐聚合软件) v2.6.0
[教程] 张赟慧《梅花易数导读》培训视频讲座【完结】
[电脑软件 / 苹果软件] 小白羊云盘(gaozhangmin) v3.12.6 阿里云盘客户端
[资料] [大学期末救急课] 猴博士+高斯课堂+斐多课堂,全集视频合集
[影视] 首尔之春 WEB-DL版下载 /12.12: The Day 2023 8.06GB
[影视] 年会不能停! WEB-DL版下载/Johnny Keep Walking! 2023 年会不能停! 21.71G
[电影] 2024年喜剧片·热辣滚烫 [mp4]
[电影] [周处除三害][WEB-MKV/6.34GB][国语音轨/简繁英字幕][1080P][流媒体][BATWEB小组作品]
[纪录片] 河西走廊【10集 国语 中文字幕 1080P 10.8G MP4】
[电影] 东方快车谋杀案(2017) 4K UHD
[红包活动] 放水!支付宝抽随机实体店通用红包
[电影] 2023年国产爱情片《夜幕将至》HD国语中字
[安全防护] 沙盘SandBoxie Classic 5.68.2 / Plus 1.12.8
- 最新评论
- 热门tag