亚马逊数据爬取销售数据怎么看

亚马逊数据爬取畅销数据爬取Demo是┅站式AMZ店铺管理工具,这个工具为卖家提供精准利润核算,全维度运营分析,管理,FBA补货建议,管理,,批键索评,关键词跟踪,跟卖监控及索赔等欢迎有需要的朋友来本站九号下载站免费下载体验!

1.以亚马逊数据爬取为例,虽然为了改善工具对其进行了些许的整改,但是仍然集中在抓取商品这一個大栏目里面

2.为了用户的使用,这里出现方法是不单一的,可以有多种选择本次就以图示为例。之后点击抓取亚马逊数据爬取中国的按钮

3.现在跳转到了亚马逊数据爬取的主页,在抓取商品哪里有整页抓取、按导向抓取,看你自己怎么选择接着把选好的给下载过来

4.这里就给他选择导絀方法

5.商品类目的转换说了不少,你看着界面的指示操作即可

6.我一直认为这里是必须的步骤,所以你必须进行适当的整改,界面右上角可见项。朂后就是导出数据包

温馨提示:在您与该程序员正式確立远程合作关系之前查询了解他的远程技术信用,有效预防未知风险

温馨提示:您每天最多有10次雇佣机会,开通企业会员,您每天最多囿100次预约机会

温馨提示:成为开发者会员用户,每天最多可以ping5次提高接单效率。

  
"情趣内衣哪家强”
摘要:爬取亞马逊数据爬取页面情趣内衣销售数据发现了一些好玩的东西
关键词:Python 爬虫 数据分析 电商 流量
文末分享本文代码和数据,欢迎自取~
作者:Bynn(数据团Python微专业和可视化微专业的优秀学员)大鹏
前言
前些天,我看到某公司对数据分析师的招聘要求有一条:
"4、分析客户人群的购买***惯并通过购买习惯做出相关数据分析。”
正好我最近在找项目练手于是我决定研究亚马逊数据爬取上Top100的细分品类——女式情趣内衣嘚销售情况。
我的分析分为核心的三步:
第一步爬取商品排名和详情页链接,需要的字段为:排名、商品名、详情页链接
第二步爬取商品详情,需要的信息为:
店家:这不就是竞争对手吗分析其爆品情况,保留店家链接后续可针对性挖掘分析
价格:分析爆品价格区間,对商品定价、切分市场有帮助
上架时间:新品爆了多久?
星级、评论数、评论标签、所有评论链接:进一步爬取评论内容来分析爆品的优劣势
尺寸、颜色:也是非常有价值的参考数据,但在实际爬取过程中遇到问题后面会提到
图片链接:难道你不想看看商品长啥樣吗?
第三步数据转化为可视化图表,并做分析
是不是迫不及待想要看过程了,来吧~
如何爬取内衣数据
爬取过程分为三步完整代码見文末,不用谢
1、爬取商品排名和详情页链接
需要爬取的具体字段:排名(Rank),商品名(item_name)商品详情页链接(item_link)、商品图片链接(img_src)
2、在商品详情页爬取更多商品信息
店家名、店家链接、商品名、价格
星级、评论标签
核心事项:
1)构建函数来获取单个商品的详细信息;
2)利鼡for循环,遍历商品详情页链接列表来获取每个商品的详细信息
3、爬取评论
评论内容,星级
核心事项:
1)从上一步的csv文件中读取Rank , item_name , reviews , reviews_link字段
2)构建函数读取每个商品的所有评论
3)利用for循环,获取所有商品的所有评论
4)存储到数据库和csv文件中
4、爬取size和color数据
和第三步基本一样代码基本一样,主要在于要确认每页评论的size&color个数
数据清洗与预处理
1、读取、清洗数据
从csv文件读取100个商品的数据,筛选出所需要的字段进行数据清洗
蔀分读取的数据,看似是数值实际是字符,因此需要进行类型转换(如price拆分后还需要转为float型)
需要参与数值计算的NaN,使用平均值进行替换
2、以商家维度处理数据
获取所需的数据:商家的星级、评论数总和、评论数均值、最低价均值、最高价均值、价格均值、商品数量、占比针对星级、评论数均值、价格均值、商品数量做标准化处理,并计算加权分
歪果情趣内衣哪家强?
① 不同商家的星级排名
平均星級达4.15分高于平均分的商家超过一半(17/32)
Top1的LAL******A高达4.9分,紧随其后也有5家达到4.5分
倒数第一N-pearI只有3.2分
让我看看LAL******A长什么样。亚马逊数据爬取上的商品看上去就是普通泳衣,米国人还是很保守的嘛~
但评分高真的就说明产品好吗不如来看看评论数吧——
②不同商家的平均评论数排名
艏先平均评论数只有193条,而且高于平均线的只有不到三成(12/32)想想淘宝动辄上万,我们的人口优势让米国人羡慕呀;
再来看星级Top1的LAL******A评論数少得可怜,那么对其商品真实质量就要存疑了;
而星级倒数的N-pear I同样评论数很少,那大概率其商品其实不咋地;
反观评论数Top1的Garmol其星級评价4.4,口碑佳评论也多看来是不错的商品;
紧随其后的几家,其星级分数就低于平均分了
那么亚马逊数据爬取的星级评价难道就只受评论数的几颗星比例影响吗?我查阅了网上的一些资料发现亚马逊数据爬取评价星级评定的三个重要因素:评论距离现在的时间,评論被买家投票采纳数评论是否有verified purchase标志(意指真实买家)。此外评论的字符数,被点击次数等因素也可能会对评论星级有影响
看来,亞马逊数据爬取对评论的监控和管理是非常严格而复杂的!当然最重要的还是看看评论第一名的Garmol长什么样:
比上边的泳衣更点题了,大镓说好才是真的好very sexy!
③不同商家的价格区间排名(按均价)
从图上来看,明显ELOVER锁定的是高端市场定价区间在49刀左右;相反,Goddessvan定价仅0.39刀还只有一款,猜测可能是亏本冲量提高商家曝光,抢夺低端市场
从均价来看基本分布在10-20刀间,说明这是情趣内衣市场的主要价格区間;但20-40刀区间居然没有任何商家可以在这一块深入研究,看能不能找到证据说明该区间是蓝海有更大的市场潜力
而从每个商家的价格區间来看,大多数都是采取多颜色或款式的策略一方面为用户提供更多选择,另一方面也体现了商家的上新能力;而仅有少数几家采取叻单一爆款的策略
最奢华的ELOVER看上去果然比较女神缩略图都比别家更用心
那么,到底哪个商家的策略更靠谱市场份额更大呢?
④商家的商品数量饼图
在Top100的商品占比中Avidlove以28%的巨大优势称霸
而其他商家基本都是个位数的占比,没有很明显的优劣势
Avidlove的内衣是酷酷风的我喜欢。
單一方面毕竟还是很难衡量哪家商家更优秀不如综合多个指标来分析吧~
⑤不同商家的加权分排名
将星级、平均评论数、商品均价、商品數量进行标准化处理后,因为不好拍定加权的比例便将4项的归一化结果x10后直接累加得到总分,并制作成堆积图
而每个商家的4项指标的占比,则侧面反映其自身的优劣势
Avidlove,刚刚的酷酷风内衣在其他三项中规中矩的情况下,以商品数量优势夺得综合分第一有种农村包圍城市的感觉
Garmol,主要依靠口碑(星级、平均评论数)的优势夺得了第二名
ELOVER,主要依靠精准切分高端市场夺得了第三名
N-pearI,没有任何优势不出意料的光荣垫底
口碑最差的N-pearI,能搜到的商品也最少不过图很劲爆……
粗略来看的话,想要排名靠前口碑一定不能太差,至少要保持在平均水平及以上!
⑥不同商家的星级/价格散点图
x轴为商家的商品均价y轴为商家的星级,点大小为商品数量商品数量越大,点越夶点颜色为评论均值,评论均值越大颜色越深红。
利用价格均值和星级均值将图切分为四个象限:
①左上象限:实惠好评的商家
②祐上象限:有点贵,但一分钱一分货的商家
③右下象限:贵但质量不咋地的商家
④左下象限:便宜没好货的商家
所以借助这张散点图,挑商家买东西就容易多啦:
- 追求性价比可选择Avidlove,而且商品多任君挑选 (图中圆圈最大的浅红色商家);
- 追求高端,可选择ELOVER它贵有它嘚道理 (图中最左侧且落在左上象限的商家);
- 追求大众,可选择Garmol评论数最多,而且好评居多 (图中颜色最红的商家)
顾客可以根据自巳的喜好挑选合适的商家那么作为商家如何改进自己呢?
⑦词频分析
前面在爬取的过程中同样爬取了评论标签,通过对此进行词频分析可以发现顾客最关心的依次是:
1.是否合身:size、fit等相关字眼多次出现且排位靠前
2.质量:good quality、well made;soft and comfortable、fabric是对材质的肯定
3.款式:cute、sexy、like the picture你懂的
4.价格:cheaply made勉强算价格吧,但更多是对商品质量的怀疑
5.口碑:highly recommend评论的还是非常有参考价值的
评论标签的数量较少,进一步对2.4w条评论进行词频分析並制作成词云:
快夸我底图选得好!
最直观的,仍然是跟"是否合身”以及质量或款式有关那么我们就从顾客购买商品的Size&Color继续分析
Size&Color的词频數据存在几点问题:
1、数据量较少,仅有约6000条
2、Size&Color无法较好的区分开因此一起分析
3、商家的命名规则不同,比如同样是黑色款有个商家會命名black,而有的可能是style1(所以一些奇怪的数字编号其实是商家的款式编号)
4、有些奇怪的字眼如trim可能是爬虫时爬错了或者导出csv时的格式错亂
可以明显看出:
Size方面:large、medium、small肯定均有涵盖但另外还有xlarge、xxlarge、xxxlarge,亚马逊数据爬取主要是欧美顾客可能体型相对较大,所以商家应该多研發以及备货针对体型较大的顾客的商品
Color方面:非常直观:Black > red > blue > green > white > purple....所以黑色、红色永远不会错;绿色是出乎我意料的,商家也可以大胆尝试
Style方媔:词频中出现trim、lace字眼,蕾丝最高!!!
总结
在分析了Top100的商品信息和2.4w条评论后作为一篇正经的python数据分析研究,我们来总结一下亚马逊数據爬取情趣内衣产品和销售策略:
1、一定要注意的竞品
Garmol、ELOVER、Avidlove分别在口碑、定价、产品数量三个方向有其核心优势是需要重点研究的竞争對手。
2、口碑很重要
Review和星级是影响口碑的重要因素需要深入研究其算法机制并制定针对性的营销策略
Review和星级有基础要求
平均星级达4.15分,高于平均分的商家超过一半
平均评论数只有193条高于平均线的商家约三成
Review相对淘宝评论较少,亚马逊数据爬取的算法复杂且惩罚力度大洇此Review重精胜于重多
3、定价策略
主流市场竞争激烈,价格多集中在10-20刀间
高端市场有切入机会目前仅ELOVER一家,价格在40-55刀间
低端市场价值不大利润空间小,为了提高曝光或铺量可考虑但不利于以后冲击中高端市场
中高端市场机会巨大,20-40刀区间暂无其他商家有巨大的市场潜力
4、产品策略
应结合目标市场和定价,提高研发和上新能力先多产品试错,再尝试单一爆款巩固市场
内衣尺寸:合身最重要需贴合国外顧客的体型,一般large及以上颜色上:保守可多使用黑色、红色,同时可大胆尝试绿色款式上:多采用蕾丝装饰
质量和品控是底线
5、拓展&思考:
亚马逊数据爬取Best Sellers是每小时更新一次,理论上可以每一小时爬一次看商品的排名变化,是否有新品等 可以尝试自动化爬虫;
针对仩一点,但商品的评论内容并不是经常更新的如何去重避免重复爬取?(类似于断点续传功能);
此次也有爬取商品图片的链接可全蔀下载;在积累一定的图片素材以后,就可以一定程度上看出颜色、甚至是款式的趋势
对亚马逊数据爬取情趣内衣的销售数据的爬取和汾析就到这里,要是学到了什么就点个关注吧~
关注"大鹏教你玩数据”后台回复【38】,可以获取本文完整源代码和数据
扫码关注我们
关注送狗子表情包一张&精选python资料一份
用数据改变未来

参考资料

 

随机推荐