Python爬取B站耗子尾汁、不讲武德出处的视频弹幕
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理 。
前言耗子喂汁是什么意思什么梗呢?可能很多人不知道 , 这个梗是出自马保国 , 经常上网的人可能听说过这个名字 , 而他所说的一些话也被当成了一些梗 , 比如年轻人不讲武德 , 闪电五连鞭等等
【Python爬取B站耗子尾汁、不讲武德出处的视频弹幕】B站马保国的一段视频中他右眼红肿金句频出 , 部分经典句式甚至被网友们总结归纳成了“保国体” , 变成了口头禅 , 比如“年轻人不讲武德 , 欺侮我六十九岁的老同志”“耗子尾汁”(好自为之)等
那么让我们来看看网友们大都发了啥弹幕
文章插图
项目目标爬取B站弹幕 , 词云图显示
文章插图
第一个视频播放量快2000W了 , 弹幕也有4.8W
文章插图
每天一遍 , 快乐源泉 , 嘿嘿嘿
环境Python3.6
pycharm
爬虫代码导入工具
import requestsimport parselimport csvimport time
先按F12 , 找到弹幕的数据在哪
文章插图
从列表页中获取详情页的URL地址等数据
文章插图
文章插图
for page in range(20,32):time.sleep(1)print('=================正在下载11月{}日弹幕===================================='.format(page))url = ';oid=140610898 Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',"cookie": "__uuid=1896D3F7-4A98-54EB-F7FA-3301CE9EF5F307776infoc; buvid3=B68B2187-4C3E-4466-A896-FBF9B292099B190963infoc; LIVE_BUVID=AUTO4115757254257055; stardustvideo=1; rpdid=|(umu|ulY)JJ0J'ul~l~klRJ); sid=8cq4r229; im_notify_type_65901796=0; laboratory=1-1; DedeUserID=523606542; DedeUserID__ckMd5=909861ec223d26d8; blackside_state=1; CURRENT_FNVAL=80; SESSDATA=http://kandian.youth.cn/index/a976c0b4%2C1618637313%2C4d792*a1; bili_jct=7f54729ec20660f750661122b80746d2; PVID=1; bp_video_offset_523606542=458111639975213216; CURRENT_QUALITY=16; bfe_id=1e33d9ad1cb29251013800c68af42315"}response = requests.get(url=url, headers=headers)response.encoding = response.apparent_encodingselector = parsel.Selector(response.text)data = http://kandian.youth.cn/index/selector.css('d::text').getall()for i in data:print(i)with open('B站弹幕.csv', mode='a', newline='', encoding='utf-8-sig') as f:writer = csv.writer(f)links = []links.append(i)writer.writerow(links)
文章插图
词云代码import jiebaimport wordcloudimport imageio# 读取文件内容f = open('csv文件地址', encoding='utf-8')txt = f.read()# print(txt)# jiabe 分词 分割词汇txt_list = jieba.lcut(txt)string = ' '.join(txt_list)# 词云图设置wc = wordcloud.WordCloud(width=800,# 图片的宽height=500,# 图片的高background_color='white',# 图片背景颜色font_path='msyh.ttc',# 词云字体# mask=py,# 所使用的词云图片scale=15,)# 给词云输入文字wc.generate(string)# 词云图保存图片地址wc.to_file('\\1.png')
文章插图
- 桌面|日常使用的软件及网站分享 篇一:几个动态壁纸软件和静态壁纸网站:助你美化你的桌面
- 中国|意大利制造求助中国网站,意外交部长出马见证
- 告人温博特等人|侵犯他人著作权,D站经营者获刑
- 出炉|B站2020年度弹幕出炉!第一名竟然是它?
- 市场|聚焦私域流量电商供应链赋能 纷来电商或站上万亿市场风口
- 爱奇艺|连续亏损十年,爱奇艺收入不及快手,视频网站的出口在哪里?
- 不良|打开“无痕模式”就以为无人知?殊不知,“不良网站”正在利用你
- 真相|看似免费的“不良网站”,背后靠什么赚钱?知道真相你还会看吗?
- 示该站点|虾秘功能大揭秘之订单监测&广告概况
- 反垄断|好日子到头?谷歌等美企将面临美国4起诉讼,30国已站在对立面