博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
以项目为导向,助您入门python之网络爬虫-爬取京东商品plus价格低于原价5折的商品(二)
阅读量:3914 次
发布时间:2019-05-23

本文共 1275 字,大约阅读时间需要 4 分钟。

爬取京东商品plus价格低于原价5折的商品(二)

上一篇文章已经把整个爬取流程介绍完毕了,现在就不废话了,开始项目!

首先获取京东网页,打开京东首页:

在这里插入图片描述

再搜索框里输入你想买的商品,以家具为例:
在这里插入图片描述

关于家具的商品一共用100页,其实有更多的。这里的网址有一个规律:

设置一个变量n(如果你是啥都不懂的小白可以不用管变量这个术语,),然后商品的第一页至100页可以这样表示:
https://search.jd.com/Search?keyword=家具&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&stock=1&page=’+str(n)+’&s=’+str(1+(n-1)*30)+’&click=0&scrolling=y

加粗的keyword=家具 是你刚才在京东首页搜索的关键词,如果你想买衣服可以改为keyword=衣服

有了这个规律后,现在只需要把心思放在怎样爬取具体某一页的商品信息,然后按照这个规律,使用循环就可以了.

怎样获得这个网页的所有信息呢?用我们正常的角度是看,用眼睛看,有会员价的商品都会有如下的图标:

在这里插入图片描述
那么我们编程序也是让计算机去这个网页吗?使用计算机视觉技术是可以的,但是视觉技术都是大佬级别的才会,而且对计算机的性能要求高。其实我们现在看到的网页基本都是由HTML编写的,说白了也是用代码敲出来的,只要在网页里右击鼠标,然后点击查看源代码,你就可以看到这个页面的源码,这网页的所有信息都在这里。这样我们就可以 把视图问题转为处理文档的问题。

在这里插入图片描述
在这里插入图片描述

计算机自动获取网页源代码

#把网址传到url里,n为1到100的变量,n这个变量会在下面写到的循环中定义,现在暂时不定义url = "https://search.jd.com/Search?keyword=" +"自营"+key + "&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&stock=1&page=" + str(n) + "&s=" + str(1 + (n - 1) * 30) + "&click=0&scrolling=y" headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/63.0.3239.132 Safari/537.36', 'upgrade-insecure-requests': '1', } #获取网页html = requests.get(url, headers=headers).content.decode('utf-8')print(html)#把获取到的网页源代码显示出来

今天的分享就到这里,下一篇文章讲述这个项目的核心,找plus价格低于原价5折的商品。

转载地址:http://ikprn.baihongyu.com/

你可能感兴趣的文章
如何理解Eating这个词?云原生与微服务专场介绍
查看>>
诊断日志知多少 | DiagnosticSource 在.NET上的应用
查看>>
Chrome正在启用HTTP/3,支持IETF QUIC
查看>>
简单聊聊AspNetCore的启动流程
查看>>
.NET架构小技巧(2)——访问修饰符正确姿势
查看>>
一站式Web开发套件BeetleX.WebFamily
查看>>
工作这几年所获、所感、所悟
查看>>
不想写脚本清理 mongodb 中的垃圾数据,ttlIndex 能帮到你!
查看>>
跟我一起学.NetCore之MediatR好像有点火
查看>>
.NET架构小技巧(4)——反射,架构人员法宝II
查看>>
让你变厉害的7个底层思维
查看>>
译 | 将数据从Cosmos DB迁移到本地JSON文件
查看>>
再被补刀!Flash又遭抛弃,你会怀念它吗?
查看>>
国产操作系统发展离不开人才和市场
查看>>
心想技术驱动业务,却在背道而驰
查看>>
SM2 国密算法被 Linux 内核社区接受
查看>>
日计不足涓滴成河-自定义响应结果格式化器
查看>>
.NET架构小技巧(3)——反射,架构人员法宝I
查看>>
对精致码农大佬的 [理解 volatile 关键字] 文章结论的思考和寻找真相
查看>>
.NET for Apache Spark 1.0 版本发布
查看>>