- 新增 2-8.py 文件,实现从日志文件中解析和统计每小时的 404 错误数量 - 使用 Spark 进行日志处理和分析 - 添加日志解析函数和提取小时函数 - 实现从 HDFS 读取日志数据并进行过滤和聚合 - 最后输出每小时的 404 错误数量
- 新增2-6.py 文件,实现日志解析和统计功能 - 使用 Spark 集群处理大规模日志数据 - 提取每日404 错误次数并使用 Matplotlib 绘制折线图 - 通过正则表达式解析日志,过滤出404 状态码的日志 - 按日期统计404 错误次数,并排序 - 最后展示折线图,直观显示每日 404 错误的变化趋势