【Python爬虫】Scrapy模块爬取微信公众号历史内容——Python实战篇

发表于2021-07-07|更新于2025-09-09|程序设计逆向分析Python抓包分析

|总字数:277|阅读时长:1分钟|浏览量:

【Python爬虫】Scrapy模块爬取微信公众号历史内容——抓包篇
 【Python爬虫】Scrapy模块爬取微信公众号历史内容——数据分析篇
 【Python爬虫】Scrapy模块爬取微信公众号历史内容——Python实战篇
 【Python爬虫】Scrapy模块爬取微信公众号历史内容——数据导出篇

前两章节中我们学习了如何抓包和分析数据这节我们将开始进行
Python实战打开Pycharm
allowed_domains这个呢是只允许爬取在这个域名下的内容，填的是微信公众号的域名都一样的
start_urls这个就是我们前面提取出来的链接把链接的offset改为0就是从第一页开始爬起
parse这个函数是自动生成的
我们需要在这里编写爬虫回调
回调写完后
win+r打开运行输入cmd 输入你文件所在的盘符然后cd到你文件目录
如我是路径是e:pythonspio
先输入e:回车然后
cd pythonspio回车就行了
输入scrapy crawl name运行爬虫

try包围是因为当key失效会报错

文章作者: Jamie793

文章链接: https://blog.jamiexu.cn/2021/07/07/%E3%80%90python%E7%88%AC%E8%99%AB%E3%80%91scrapy%E6%A8%A1%E5%9D%97%E7%88%AC%E5%8F%96%E5%BE%AE%E4%BF%A1%E5%85%AC%E4%BC%97%E5%8F%B7%E5%8E%86%E5%8F%B2%E5%86%85%E5%AE%B9-python%E5%AE%9E/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Jamie793’ S Blog！

Python 爬虫 Scrapy

赞助

wechat
alipay

相关推荐

【Python爬虫】Scrapy模块爬取微信公众号历史内容——数据导出篇

【Python爬虫】Scrapy模块爬取微信公众号历史内容——抓包篇【Python爬虫】Scrapy模块爬取微信公众号历史内容——数据分析篇【Python爬虫】Scrapy模块爬取微信公众号历史内容——Python实战篇【Python爬虫】Scrapy模块爬取微信公众号历史内容——数据导出篇前面我们学习了如何抓包、分析、python实战但是唯一的缺点是打印出来的数据分析起来比较困难。今天我们就学习如何导出文件格式为excel的文件可以使用wps officems office进行更可观的数据分析及排序如图所示开源链接：链接

【Python爬虫】Scrapy模块爬取微信公众号历史内容——数据分析篇

【Python爬虫】Scrapy模块爬取微信公众号历史内容——抓包篇【Python爬虫】Scrapy模块爬取微信公众号历史内容——数据分析篇【Python爬虫】Scrapy模块爬取微信公众号历史内容——Python实战篇【Python爬虫】Scrapy模块爬取微信公众号历史内容——数据导出篇打开后打开setting文件把ROBOTSTXT_OBEY设置成TrueDOWNLOAD_DELAY = 0.5 这里是每次发送包后的延迟如图然后我们对上个文章中获取到的链接进行分析这里我用火狐浏览器因为火狐浏览器自带了格式化json数据的功能can_msg_continue这个为1就是还有数据为0则没有数据了msg_count数据的条数next_offset这个值-1就是得到下一个offset的值general_msg_list是一个json数据我们需要对他进行格式化这也是我们最需要的数据先用sublime text对这个数据的替换成空然后打开在线Json格式化进行格式化分析在把格式化的内容粘贴回sublime进行分析上图中可以看到datetime就是一个10位的时间戳时间和数据是分开...

【Python模块】Urllib的使用

我们首先了解一下 Urllib 库，它是 Python 内置的 HTTP 请求库，也就是说我们不需要额外安装即可使用发送简单的get请求 1234567#python2import urllib2response = urllib2.urlopen('http://www.baidu.com')#python3import urllib.requestres = urllib.request.urlopen('http://www.baidu.com') 1234567import urllib.requesta = urllib.request.urlopen('http://www.baidu.com')print(a.read().decode('gbk', 'ignore'))print(a.status)#状态码print(a.getheaders())#获取所有header返回元组列表print(a.getheader('Set-Cookie'))...

【Python爬虫】Scrapy模块爬取微信公众号历史内容——抓包篇

【Python爬虫】Scrapy模块爬取微信公众号历史内容——抓包篇【Python爬虫】Scrapy模块爬取微信公众号历史内容——数据分析篇【Python爬虫】Scrapy模块爬取微信公众号历史内容——Python实战篇【Python爬虫】Scrapy模块爬取微信公众号历史内容——数据导出篇首先下载Fiddler并设置https捕抓设置方法打开fd点击Tools->Options->HTTPS勾选选项出现弹窗选择yes或者是如图打开微信公众号打开微信公众号历史记录后滑动页面到底部fd中会捕抓到一个https的请求双击它点击raw有一个链接可以直接点击浏览器打开浏览器打开后是这样子的其中osffset是当前位置，count就是数量开始offset为0后以10递增count10就代表每次获取十条数目开始用Python编程爬虫创建scrapy工程 scrapy startproject projectnameSpider创建scrapy爬虫文件scrapy genspider projectname 公众号域名用Pycharm打开

【CTF/WP/Crypto】第二届广东大学生网络安全攻防大赛

Crypto-xor2程序分析 ”轮环异或加密，你能解开么？格式：flag{}“ 文件下载有一个py文件和一个文本文件从描述可得知就是一个异或加密从图中分析得知密钥是四位的密钥且不知道，然后flag也不知道。基本上无解了 But!!!从描述中可知flag前四位是”flag”又是异或加密。异或有个特性就是异或两次等于原文那么是不是可以利用给出的前四个flag进行key的解密呢解密脚本编写123456789101112131415161718# 从cipher中整理得到的数据 encData = [ 0x1E, 0x14, 0x19, 0x1F, 0x03, 0x1E, 0x1B, 0x1B, 0x1A, 0x48, 0x4E, 0x4E, 0x4D, 0x55, 0x1A, 0x1B, 0x1D, 0x4D, 0x55, 0x1C, 0x4B, 0x4A, 0x41, 0x55, 0x19, 0x1B, 0x19, 0x4F, 0x55, 0x41, 0x41, 0x49, 0x4F, 0x41, 0...

【CTF】CTF的一把梭Z3

安装z3Z3开源项目地址：https://github.com/z3prover Python文档翻译：https://arabelatso.github.io/2018/06/14/Z3%20API%20in%20Python/ 官方文档 C++ API .NET API Java API Python API (also available in pydoc format) Julia 首先访问Pypi下载对应的架构的whl文件，下载的时候注意对应自己电脑的平台和Python对应的版本。下载好后打开cmd输入pip install 下载的文件路径进行z3的安装。如图所示

评论

数据加载中