原标题:Power Query 爱淘宝数据抓取的方法
洳果你到爱淘宝上搜索一个关键词就会出来很多结果,任意一个关键词对应的至少也有几十页的内容:
如果你要把所有这些页面的数据抓取下来做分析看看销售金额,看看哪些店铺销售的好:
接下来我们就来做这个网站数据的抓取。
- 打开爱淘宝网站输入关键字得到搜索结果
- 然后点选几个页面的数字
网址分析的过程就是一个找规律的过程:
我们点选页码时会有对应的网址URL,我们要观察这个网址的变化規律其中我们注意到两点:
前后都是用&符号连接的,当我们选不同的页面时page会变化,正好对应的时页码我们就知道,这个page对应的就昰:
而key对应的就是我们搜索的关键字--“Excel”
- 输入我们找到的实际网址URL
- page:要抓取的页码
用这两个参数替换掉URL中的页码数字和“Excel”
- 建一个列表1-100,转换到表并且转换为文本格式
- 自定义列,调用自定义函数
爱淘宝的数据格式是jsonPower Query可以直接解析。
数据很整齐除了产品声明中有些格式符号,统一替换掉就行另外图片URL和其他跳转的URL都没有https,如果你要在Power BI中制作图片墙就需要替换“//”为“https://”,这样这个图片URL才是有效的URL
Power BI Desktop图片URL这个问题好像是修复了,之前我们还需要用二进制保存图片到本地才能显示图片,今天试了一下可以直接通过图片URL显示图片了。
这次的抓取没有遇到断网的情况这个网站视乎不反对大家抓取数据,而且使用Power Query抓取关键字Excel共100页一共5991条数据用不了几秒钟,速度也可鉯对于不愿意写代码,又有网络抓取需求的朋友来说Power Query也算是一种选择吧。