淘宝母婴用品分析报告

2020/02/21 posted in  项目

引言

近年来互联网的高速发展,许多行业也在随之升级,传统贸易行业也逐步转向电商行业发展,电商在发展过程中,基于互联网平台会产生大量数据,如何用好这些数据规避风险产生更大的利润成为了新的问题。本文基于电商婴儿商品数据,对数据进行清洗,建模,针对数据显示结果提出相应的建议。数据来源:阿里巴巴天池

理解数据

表1购买商品字段

字段名 说明
user_id 用户id
auction_id 购买行为编号
cat_id 商品种类ID
cat1 商品属于哪个类别
property 商品属性
buy_mount 购买数量
day 购买时间

表2婴儿信息表字段

字段名 说明
user_id 用户id
birthday 出生日期
gender 性别

(其中:表1购买时间时间戳格式,表2性别字段内0为男性,1为女性)

表1,表2通过用户id相关联。

提出问题

淘宝婴儿商品销售.xmind

针对婴儿商品的数据构建产品,用户两个维度下的相关分析,拟定解决如下问题:

  1. 时间维度下销售的淡旺季
  2. 不同产品市场占有率及用户回购率为何
  3. 用户的年龄性别分布
  4. 用户的购买行为偏好

数据清洗

数据清洗.xmind

删除重复值:用户的购买应为判定为唯一的重复值值段,删除表1下用户购买行为编号  。

缺失值处理:表1下商品属性存在缺失值,犹由于缺失值的影响较小故删除缺失。

一致化处理:对表1购买时间数据利用=text(value,“0000-00-00”)转化格式。利表用=VLOOKUP($A2,表1购买商品.csv!表1[#全部],COLUMN(),0)函数关联 表1数据到表2内,删除表2出错误值,将出生时间数据转化为日期格式,将0替换为女性,1替换为男性。利用购买日期-出生日期计算出婴儿年龄。

异常值处理

  1. 表一中用户购买数量达10000,无法判定是否为异常值,为减少极端值干扰,将该数据删除。表2中用户购买数量同出现较大值,予以保留。
  2. 对于性别栏出现2,不确定性别值予以删除。
  3. 年龄栏,年龄值小于1岁判定为用户提前准备用品,将数据转化为0保留处理,对于年龄异常值28,予以删除。

模型构建

利用数据透视表建立如下透视图。

产品

1.月度产品销售数量及购买用户数量

2. 2014年产品销售数量及购买用户数量

3.产品市场分布

4.复购率的计算

用户

1.用户年龄性别分布情况

2.不同商品性别及年龄间销售量差异

3.不同产品及性别间购买用户量差异

可视化报告展示

模型构建结论制作可视化报告,针对报告中涉及现象拟定解决对策与建议。

淘宝母婴用品分析报告