使用Mediacrawler爬虫抓取数据的攻略

使用基于Python开发的Mediacrawler爬虫可以抓取b站、小红书等几乎所有国内新媒体平台的推文、视频数据。这里的数据涵盖观看量、点赞、收藏之类的可公开的量化数据,也包含评论这种文本数据。这个爬虫基于Playwright开发,虽然现在大公司都针对Playwright反爬,但是我拿来平时练手做的项目显然没有那么高级的反爬。Mediacrawler是github的开源项目,不得不说做出这个大佬太强了(github stars最高的含金量)。

Clone、配置好这个github项目之后运行界面长这样:

微信图片_20250422153737

–platform 选择平台如b站、小红书 –lt 选择登陆方式(login type比如qr cpde)

–keywords 输入搜索的关键词 -get_comments 选择是否要获取评论文本信息

输出的数据格式选择csv,因为excel可以直接处理csv格式的数据。

比如我们在B站搜索“出国旅行”关键词,跑出来以下数据(会出现在data文件夹中,每次爬虫爬完之后记得把Browser_data文件夹给删掉)

会发现有三个文件,一个是关于视频本身播放量等数据,一个是抓取的评论文本,还有一个是视频Up主的信息。PixPin_2025-04-22_15-44-45

打开文件视频数据和作者数据长这样:

微信图片_20250422154702
微信图片_20250422154712

评论的数据没有,我没有抓取出国旅行这一关键词的数据,但我抓取了我喜欢的游戏战锤的评论,如图:

PixPin_2025-04-22_15-48-13

剩下的数据分析工作就很简单了,因为数据分析工作的难点从来不是分析数据而是如何获取数据。现在已经得到了excel文件,那数据分析工作也很简单了。(如果是其他格式的文件可能还得使用Python清洗等)

有原始数据的话数据分析就很容易,比如我filter 粉丝小于某个数 filter播放量大于某个数由此找到低粉爆款视频。再filter这些博主。

微信图片_20250422155031

微信图片_20250422155146

视频的评论直接清洗获得词频再做词云图就好了。文件太大了不能丢给AI做,后续也需要验证AI做的是否可信。

优化以及后续:不要学我一样先获取comments,爬虫初步抓取的时候先别抓comments,先filter出来低粉爆款视频再抓取这些视频的comments。毕竟comments太多抓取太慢了。同时我b站账号似乎触犯了平台反爬虫的机制,已经不能成功抓取数据了,后续可以配置干净的Ip狠狠抓取。但切记不要玩的太过火,小心吃上国家饭。

  • Copyrights © 2021-2025 Alan
  • Visitors: | Views:

请我喝杯咖啡吧~

支付宝
微信