苏苏网赚论坛

 找回密码
 立即注册
查看: 464|回复: 0

爬虫是如何爬取微博评论信息的

[复制链接]
跳转到指定楼层
楼主
发表于 2019-6-19 13:50:28 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
今天河马HTTP就为大家分享一下,爬虫是如何爬取微博评论信息的。在抓取之前,我们可以先打开微博,并登陆账号。通过开发者工具保存cookie,并根据翻页来找出url的变化规律。

  代码如下:

# -*- coding:utf-8 -*-

import requests

import re

import time

import pandas as pd

# id可以写自己想爬的地址id

urls = 'https://m.weibo.cn/api/comments/show?id=******&page={}'

headers = {'Cookies':'cookies信息',

       'User-Agent': 'agent信息'}

# 找到html标签

tags = re.compile('</?\w+[^>]*>')

# 设置提取评论function

def get_comment(url):

    j = requests.get(url, headers=headers).json()

    comment_data = j['data']['data']

    for data in comment_data:

        try:

            comment = tags.sub('', data['text']) # 去掉html标签

            reply = tags.sub('', data['reply_text'])

            weibo_id = data['id']

            reply_id = data['reply_id']

comments.append(comment)

            comments.append(reply)

            ids.append(weibo_id)

            ids.append(reply_id)

except KeyError:

            pass

for i in range(1, 101):

    url = urls.format(str(i))

    get_comment(url)

    time.sleep(1) # 防止爬得太快被封

df = pd.DataFrame({'ID': ids, '评论': comments})

df = df.drop_duplicates()

df.to_csv('微博.csv', index=False, encoding='gb18030')

  通过上述代码,我们就可以获取到微博评论的相关信息了。河马HTTP为您提供安全稳定、高效便捷的爬虫代理IP服务。
热帖推荐
回复

使用道具 举报

广告合作|最大的网赚客中文交流社区!十年老站!

GMT+8, 2024-4-27 04:07 , Processed in 0.265201 second(s), 23 queries , Gzip On.

Powered by Discuz! X3.1 VIP版

© 2012-2022 苏苏网赚论坛 版权所有 | 10年老品牌

快速回复 返回顶部 返回列表