抓取实时辟谣数据#

https://vp.fact.qq.com/home

image.png

https://vp.fact.qq.com/article?id=be3aea585b07c193778985e180cf164b

https://vp.fact.qq.com/loadmore?artnum=0&page=0

image.png

https://vp.fact.qq.com/loadmore?artnum=0&page=0

image.png

如何使用快捷键打开开发者工具#

To open the developer console in Google Chrome, open the Chrome Menu in the upper-right-hand corner of the browser window and select More Tools > Developer Tools. You can also use Option + + J (on macOS), or Shift + CTRL + J (on Windows/Linux).

https://vp.fact.qq.com/api/article/list?page=100&locale=zh-CN&token=U2FsdGVkX186uQh1zecOEhKWJnvgDYAkh7N%252BVBnRrbNgyzif9Sj5PmJ1vRBoqtIo

image.png

image.png

import requests
from bs4 import BeautifulSoup

# path = 'https://vp.fact.qq.com/api/article/list?locale=zh-CN&token=U2FsdGVkX1%252BSf5tazIgNXUkfSRI81VMClXBoG5lAMez6vJJWe%252BfsQqejh9QTvts7&page='
path = 'https://vp.fact.qq.com/api/article/list?locale=zh-CN&token=U2FsdGVkX18wJCxvmPFL5AV2K4up19%252Fjtp2T%252F5nJsBZrsPhH9WhvW7smZP%252BVVcO9&page='

url = path + '100'
content = requests.get(url)
d = content.json()
d['data']['list'][9]
{'title': '郑州上午九点到十一点将空中喷洒消杀药物',
 'author': '郑州电台新闻广播官方微博',
 'authordesc': '郑州电台新闻广播官方微博',
 'id': 'd087b691eab2d89d7e177a299e183818',
 'Author': {'id': 1234,
  'name': '郑州新闻广播',
  'desc': '郑州电台新闻广播官方微博',
  'head': 'http://p.qpic.cn/jiaozhen/0/b6e73b0df15e4f6b90edd91f98ab3721/0',
  'level': 0,
  'artList': None,
  'openid': '',
  'unionid': '',
  'inviteId': '',
  'nickname': '',
  'headimgurl': '',
  'ext1': '',
  'ext2': None,
  'ext3': None,
  'ext4': None,
  'ext5': None,
  'createdAt': '2020-01-25T04:15:12.000Z',
  'updatedAt': '2020-01-25T04:15:12.000Z'},
 'date': '2020-01-25',
 'markstyle': 'fake',
 'result': '假',
 'explain': '谣言',
 'abstract': '郑州新闻广播记者拨打了12345市长热线,接线员说,并没有收到相关消毒通知。随后,记者又电话联系上河南省疾控中心,相关负责人告知,他们也没有收到相关通知。\n郑州市疫情应急指挥中心的工作人员称,此条所谓的应急通知系谣言,如果有需要喷洒消杀药物,他们会提前进行告知。',
 'tag': ['肺炎', '新型冠状病毒'],
 'type': 1,
 'videourl': '',
 'cover': '//jiaozhen-70111.picnjc.qpic.cn/f1c1cb261d2a4dc5823e36a8ea30e606?imageView2/2/w/150/h/90',
 'coverrect': '//jiaozhen-70111.picnjc.qpic.cn/f1c1cb261d2a4dc5823e36a8ea30e606',
 'coversqual': '//jiaozhen-70111.picnjc.qpic.cn/f1c1cb261d2a4dc5823e36a8ea30e606?imageView2/2/w/300/h/300',
 'section': '',
 'iscolled': False,
 'arttype': 'normal'}
len(d['data']['list'][0])
19
help(print)
Help on built-in function print in module builtins:

print(...)
    print(value, ..., sep=' ', end='\n', file=sys.stdout, flush=False)
    
    Prints the values to a stream, or to sys.stdout by default.
    Optional keyword arguments:
    file:  a file-like object (stream); defaults to the current sys.stdout.
    sep:   string inserted between values, default a space.
    end:   string appended after the last value, default a newline.
    flush: whether to forcibly flush the stream.
from time import sleep
import random

for i in range(1, 100+1):
    sleep(random.random())
    print(i, end = '\r')
100
import random

random.random()
0.7456690859449465
from time import sleep
import random

jsons = []
for i in range(104+1):
    print(i, end= '\r')
    sleep(random.random())
    path = 'https://vp.fact.qq.com/api/article/list?locale=zh-CN&token=U2FsdGVkX18wJCxvmPFL5AV2K4up19%252Fjtp2T%252F5nJsBZrsPhH9WhvW7smZP%252BVVcO9&page='
    url = path + str(i)
    content = requests.get(url)
    d = content.json()
    for j in d['data']['list']:
        jsons.append(j)
104
len(jsons)
1025
import pandas as pd
df = pd.DataFrame(jsons)
df.head()
title author authordesc id Author date markstyle result explain abstract tag type videourl cover coverrect coversqual section iscolled arttype
0 北京协和医院有武汉肺炎患者出逃 综合类大型城市日报 综合类大型城市日报 502100d9aaf5d5ed23850933140f8088 {'id': 961, 'name': '新京报', 'desc': '综合类大型城市日报'... 2020-01-22 fake 谣言 新京报记者致电北京协和医院,工作人员表示,该患者按照流程操作进行诊断和治疗,没有出逃。\n该... [协和医院, 新型冠状病毒] 1 //jiaozhen-70111.picnjc.qpic.cn/1d25062126f0b8... //jiaozhen-70111.picnjc.qpic.cn/1d25062126f0b8... //jiaozhen-70111.picnjc.qpic.cn/1d25062126f0b8... False normal
1 新型冠状病毒抗体能治疗和预防肺炎 药理学硕士,知贝儿科药师 药理学硕士,知贝儿科药师 d024bb6fdb1f60a8a785dd83c9a935d4 {'id': 226, 'name': '谢望时', 'desc': '药理学硕士,知贝儿科... 2020-01-22 fake 谣言 京天成这次通报成功研制的抗体叫“2019冠状病毒N蛋白抗体”,理论上可以识别新型冠状病毒,以... [抗体, 新型冠状病毒] 1 //jiaozhen-70111.picnjc.qpic.cn/f0a11b7c9a84ef... //jiaozhen-70111.picnjc.qpic.cn/f0a11b7c9a84ef... //jiaozhen-70111.picnjc.qpic.cn/f0a11b7c9a84ef... False normal
2 口罩正确戴法:感冒时有颜色的朝外,没感冒反过来 国际谣言查证机构 国际谣言查证机构 ca1dd5415f6acd1fbf7c22fd1e6e3dc1 {'id': 501, 'name': '反海外谣言中心', 'desc': '国际谣言查证... 2020-01-22 fake 谣言 口罩正确的戴法是,有颜色的那一面(通常是绿色、蓝色或者粉红色)应该朝外,白色的那一面朝内。无... [口罩, 新型冠状病毒] 1 //jiaozhen-70111.picnjc.qpic.cn/61bb516ad6174f... //jiaozhen-70111.picnjc.qpic.cn/61bb516ad6174f... //jiaozhen-70111.picnjc.qpic.cn/61bb516ad6174f... False normal
3 这个玻璃装置是“隔离舱”,用它进行患者的隔离 医学博士、副主任医师、中华医学会科普分会青年委员 医学博士、副主任医师、中华医学会科普分会青年委员 762167361e181d478652f85ac76fe34d {'id': 13, 'name': '胡远东', 'desc': '医学博士、副主任医师、... 2020-01-22 fake 谣言 这个装置学名叫隔离担架,主要用途是转运传染性疾病患者或者疑似患者,避免在转运过程中发生继发性... [隔离, 传染] 1 //jiaozhen-70111.picnjc.qpic.cn/b0d32b60f5e90b... //jiaozhen-70111.picnjc.qpic.cn/b0d32b60f5e90b... //jiaozhen-70111.picnjc.qpic.cn/b0d32b60f5e90b... False normal
4 放烟花爆竹可以消毒,预防瘟疫 医学博士、副主任医师、中华医学会科普分会青年委员 医学博士、副主任医师、中华医学会科普分会青年委员 a54f4a260301565af3454048724350f5 {'id': 13, 'name': '胡远东', 'desc': '医学博士、副主任医师、... 2020-01-21 fake 伪科学 农业上确实有在大棚中燃烧硫磺杀灭害虫细菌的做法,但没有将硫化物用于医疗环境中的做法,因为硫化... [烟花爆竹, 瘟疫] 1 //jiaozhen-70111.picnjc.qpic.cn/814be59fed9db8... //jiaozhen-70111.picnjc.qpic.cn/814be59fed9db8... //jiaozhen-70111.picnjc.qpic.cn/814be59fed9db8... False normal
df.to_excel('./data/vpqq2023-10-27.xlsx')