Skip to content

Latest commit

 

History

History
53 lines (41 loc) · 3.23 KB

README.md

File metadata and controls

53 lines (41 loc) · 3.23 KB

TaoBao_-User-behavior-analysis

项目报告:淘宝大数据分析项目

项目概述

本项目旨在通过对淘宝用户行为数据的分析,提供深入的商业洞察和可视化展示。项目使用了Flask作为后端框架,ECharts进行数据可视化,Pandas进行数据处理,并通过多线程提升数据处理效率。

项目结构

前端部分

前端主要通过HTML、CSS和JavaScript实现,使用ECharts进行数据可视化展示。以下是主要功能模块:

  1. checkdData函数:用于检查数据状态,并在数据处理完成后通过AJAX请求获取并展示数据。
  2. getdata函数:用于从服务器获取处理后的数据,并调用ECharts进行柱状图展示。
  3. drawbar函数:用于绘制柱状图,并为每个柱子设置不同颜色。
  4. drawpie函数:用于绘制饼图,显示数据处理进度。
  5. drawLine_time01和drawLine_time02函数:分别用于绘制用户行为的日统计和小时统计折线图。

后端部分

后端使用Flask框架,负责处理前端的请求,进行数据计算,并将结果返回前端。主要模块包括:

  1. Flask路由

    • /login:处理用户登录请求,验证用户名和密码。
    • /show_act_count/show_pv_count/show_buy_count/run_total_count:启动不同的数据处理线程。
    • /getdata:返回处理后的柱状图数据。
    • /checkstatus:检查数据处理的状态。
    • /time_action:返回用户行为的时间统计数据。
  2. 数据处理模块

    • StatisticClass类:负责各种数据处理任务,包括用户登录验证、数据读取与处理、统计结果计算等。
    • 多线程处理:通过多线程提高大数据处理效率。

数据处理流程

  1. 数据读取:从CSV文件中分块读取数据,逐步处理,避免内存溢出。
  2. 数据处理:根据不同需求(例如PV统计、购买统计等)对数据进行分组、聚合和计算。
  3. 结果存储:将处理结果存储在类的属性中,方便后续访问和展示。

关键技术

  • Flask:轻量级的Python Web框架,用于处理HTTP请求并提供RESTful API。
  • Pandas:强大的数据分析库,用于读取和处理大规模数据。
  • ECharts:强大的数据可视化库,用于生成各种类型的图表。
  • 多线程:通过多线程并行处理提高数据处理效率。

结果展示

项目通过ECharts展示了多种类型的图表,包括饼图、柱状图和折线图,展示了用户行为的不同方面。例如:

  • 进度饼图:展示数据处理的进度。
  • 柱状图:展示商品的点击量或购买量等统计数据。
  • 折线图:展示用户行为的日统计和小时统计。

结论

本项目通过对淘宝用户行为数据的深入分析和可视化展示,提供了有价值的商业洞察。例如,热门商品的点击量和购买量分布、用户行为的时间规律等。这些信息对于业务决策和市场策略具有重要参考价值。

展望

未来可以进一步优化数据处理流程,提升处理速度和准确性;同时,可以引入更多的数据源和分析维度,提供更全面的商业洞察。