查看: 734|回复: 4

[python] 利用python编写网络爬虫抓取博客文章(三)

 关闭 [复制链接]

该用户从未签到

发表于 2015-7-29 20:48:51 | 显示全部楼层 |阅读模式
相关介绍:

利用python编写网络爬虫抓取博客文章(一)

利用python编写网络爬虫抓取博客文章(二)



网络爬虫的基本工作流程如下:

1.首先选取一部分精心挑选的种子URL;

2.将这些URL放入待抓取URL队列;

3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。

4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。





下载地址:


游客,如果您要查看本帖隐藏内容请回复




  • TA的每日心情
    慵懒
    2017-7-8 10:21
  • 签到天数: 298 天

    连续签到: 1 天

    [LV.8]以坛为家I

    发表于 2015-7-31 21:06:38 | 显示全部楼层
    继续学习,感觉第二篇中可以用for循环
  • TA的每日心情

    2015-11-19 14:32
  • 签到天数: 6 天

    连续签到: 1 天

    [LV.2]偶尔看看I

    发表于 2015-11-14 00:01:50 | 显示全部楼层
    继续学习
  • TA的每日心情
    开心
    2017-3-13 17:09
  • 签到天数: 47 天

    连续签到: 1 天

    [LV.5]常住居民I

    发表于 2016-3-20 13:52:19 | 显示全部楼层
    利用python编写网络爬虫抓取博客文章(三)

    评分

    参与人数 1黑豆 -10 收起 理由
    blackhatcn -10 灌水!

    查看全部评分

  • TA的每日心情
    无聊
    2017-6-27 08:12
  • 签到天数: 154 天

    连续签到: 1 天

    [LV.7]常住居民III

    发表于 2016-3-23 19:02:27 | 显示全部楼层
    哈哈哈哈哈 现在可以看了
    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    站长推荐上一条 /1 下一条