博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python抓取网页中的动态数据
阅读量:6307 次
发布时间:2019-06-22

本文共 556 字,大约阅读时间需要 1 分钟。

一、概念

  网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的。所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页中由Javascript动态生成的页面内容,是在页面加载到浏览器后动态生成的,而之前并没有的。在编写爬虫进行网页数据抓取的时候,经常会遇到这种需要动态加载数据的HTML网页,如果还是直接从网页上抓取那么将无法获得任何数据。

二、操作

  1.先进入网址如:https://dujia.qunar.com/

  2.在Chrome浏览器中,点击F12,打开Network中的XHR,我们来抓取对应的js文件来进行解析:

  3.向下拖拽或点击获取更多时,使得页面加载入更多的数据信息,从而我们可以抓取对应的报文。如点击“度假”

  4.查看XHR

  5.访问Request URL查看json信息:

  https://dujia.qunar.com/golfz/urlProxy/proxy.qunar?urlPath=http%3A%2F%2Fdiy.dujia.qunar.com%2Fapi%2Fdest.json&_=1501918232175

 

转载于:https://www.cnblogs.com/xiaomingzaixian/p/7290433.html

你可能感兴趣的文章
php类中调用array_walk()函数
查看>>
在线一键生成安卓证书keystore文件
查看>>
GITHUB(2.1-2.5)Git的导入
查看>>
判断奇偶
查看>>
android NDK 编译hellojni 例子文件
查看>>
os模块
查看>>
VLOOKUP+IF 组合用法
查看>>
Windows API 第21篇 DeleteVolumeMountPoint 删除挂载点
查看>>
Node.js:events事件模块
查看>>
C++ 内存分析-valgrind
查看>>
python调试pdb
查看>>
printf 详解 笔记
查看>>
PhotoSwipe-一个好用的图片放大缩小插件
查看>>
Swift 浅谈Struct与Class
查看>>
php ob_start callback failed
查看>>
linqjs
查看>>
apparent
查看>>
开源项目:高级SQL Server监控、性能图、分析与优化、版本控制
查看>>
汕头市队赛SRM07
查看>>
springmvc+jsp引用本地图片文件
查看>>