引言
近年来互联网的高速发展,许多行业也在随之升级,传统贸易行业也逐步转向电商行业发展,电商在发展过程中,基于互联网平台会产生大量数据,如何用好这些数据规避风险产生更大的利润成为了新的问题。本文基于电商婴儿商品数据,对数据进行清洗,建模,针对数据显示结果提出相应的建议。数据来源:阿里巴巴天池
理解数据
表1购买商品字段
字段名 | 说明 |
---|---|
user_id | 用户id |
auction_id | 购买行为编号 |
cat_id | 商品种类ID |
cat1 | 商品属于哪个类别 |
property | 商品属性 |
buy_mount | 购买数量 |
day | 购买时间 |
表2婴儿信息表字段
字段名 | 说明 |
---|---|
user_id | 用户id |
birthday | 出生日期 |
gender | 性别 |
(其中:表1购买时间时间戳格式,表2性别字段内0为男性,1为女性)
表1,表2通过用户id相关联。
提出问题
针对婴儿商品的数据构建产品,用户两个维度下的相关分析,拟定解决如下问题:
- 时间维度下销售的淡旺季
- 不同产品市场占有率及用户回购率为何
- 用户的年龄性别分布
- 用户的购买行为偏好
数据清洗
删除重复值:用户的购买应为判定为唯一的重复值值段,删除表1下用户购买行为编号 。
缺失值处理:表1下商品属性存在缺失值,犹由于缺失值的影响较小故删除缺失。
一致化处理:对表1购买时间数据利用=text(value,“0000-00-00”)转化格式。利表用=VLOOKUP($A2,表1购买商品.csv!表1[#全部],COLUMN(),0)函数关联 表1数据到表2内,删除表2出错误值,将出生时间数据转化为日期格式,将0替换为女性,1替换为男性。利用购买日期-出生日期计算出婴儿年龄。
异常值处理:
- 表一中用户购买数量达10000,无法判定是否为异常值,为减少极端值干扰,将该数据删除。表2中用户购买数量同出现较大值,予以保留。
- 对于性别栏出现2,不确定性别值予以删除。
- 年龄栏,年龄值小于1岁判定为用户提前准备用品,将数据转化为0保留处理,对于年龄异常值28,予以删除。
模型构建
利用数据透视表建立如下透视图。
产品
1.月度产品销售数量及购买用户数量
2. 2014年产品销售数量及购买用户数量
3.产品市场分布
4.复购率的计算
用户
1.用户年龄性别分布情况
2.不同商品性别及年龄间销售量差异
3.不同产品及性别间购买用户量差异
可视化报告展示
模型构建结论制作可视化报告,针对报告中涉及现象拟定解决对策与建议。