写这篇文章纯属自娱自乐。

主要是近期在自学如何利用Python解决IT运维的一些问题时,总是不得其门而入,为了增加学习兴趣,就想通过完成一个小小有趣的爬虫程序激励下自己,同时也把这次经历跟各位道友分享下。

Technorati Tags: Python,爬网,×××,数据,夏明亮

首先申明,本人不是专职coding的,所以,代码部分如果不符合专业审美,还请多多包涵;俺就是纯粹以实习那目标为基础的小白一枚;思路为先,抛砖引玉~


步骤一:利用搜索引擎找到你需要的信息的网页资源

1. 打开百度搜索”×××网”

第一个链接就是中彩网的官网;打开网站;在导航栏找到双色球并打开链接。

再找到开奖数据

找到往期回顾。

可以看到这就是我们需要获取的信息。

步骤二:分析网页源代码。

在网页上右击——>查看源代码或者直接按F12键。

借助浏览器我们很方便就可以得到网页的源码及网页中显示的数据对应的原始值。

接下来我们再看这个网页是不是就是简简单单的纯静态页面呢?怎么看呢?

1. 当前页面的网址(www.zhcw.com/ssq/kaijiangshuju/#)

2. 我们再点击下这个页面的下面几个位置

3. 看到其实他们的网址是不变的(www.zhcw.com/ssq/kaijiangshuju/#);这说明了什么?说明这些内容其实是嵌套在网页中网页文件。

那么问题来了?如何能获得嵌套网页的真实网址呢?这里我们还是要借助我们的浏览器工具(开发者工具F12)

先F12;找到Network;再单击页面山的“往期回顾”

得到这些交互数据:

网页编辑可视化软件广州天河区是市中心吗全屋装修设计定制整装企业电商平台开发网页版梦幻西游虎灯令定制应用软件有哪些西安企业网站建设多少钱广告设计专业技能有哪些粤嵌嵌入式培训在线crm视频观看优秀企业网站的优缺点设计坞官网首页室内设计可以去哪些公司营销型企业网站建设板块设置网络软文营销案例电子工程王北辰平面设计广告设计属于什么专业o2o和o2b、o2c模式是什么意思啊汕头网站推广制作怎么做长沙网络营销机构排名上海建筑公司黄页网页视频下载神器哪种最好公众号运营app昆明网站设计报价页面布局在哪里找到展位搭建标题优化方法站长工具官方网建盏供应商排行榜上海装修公司排名前十强排行榜网站建设的公司价格