|
ee0754ff2f
|
refactor(2-9.py): 更新日志文件路径为 HDFS 路径
- 将本地日志文件路径替换为 HDFS 路径,以便在分布式环境中处理大数据
- 此修改允许 Spark 从 HDFS 中读取日志数据,提高了数据处理的可扩展性和容错性
|
2025-04-14 04:06:06 +08:00 |
|
|
eb42506ea8
|
refactor(2-9):优化日志数据分析代码
-将 RDD 转换为 DataFrame,提高数据处理效率
- 使用 DataFrame API 进行数据过滤和处理,代码更简洁
- 添加小时信息提取,便于后续分析
|
2025-04-14 04:04:57 +08:00 |
|
|
5190f1fb90
|
refactor(2-9):将条形图改为折线图
- 将 matplotlib 绘制条形图的代码修改为绘制折线图
- 使用 plot函数替代 bar 函数,添加 marker、linestyle 等参数以美化图表
|
2025-04-14 04:03:11 +08:00 |
|
|
6a4170c1fe
|
refactor(2-9):将条形图改为折线图
- 将 matplotlib 绘制条形图的代码修改为绘制折线图
- 使用 plot函数替代 bar 函数,添加 marker、linestyle 等参数以美化图表
|
2025-04-14 04:01:02 +08:00 |
|
|
11c1e21778
|
feat:绘制每小时404响应代码数量的条形图
- 使用 Spark 读取和处理日志数据
- 提取每小时的 404 错误记录
- 使用 matplotlib 绘制条形图
- 展示每小时的 404 响应次数
|
2025-04-14 03:59:55 +08:00 |
|
|
fbb71a0e8e
|
feat:绘制每日 404 响应代码记录的折线图
- 新增2-6.py 文件,实现日志解析和统计功能
- 使用 Spark 集群处理大规模日志数据
- 提取每日404 错误次数并使用 Matplotlib 绘制折线图
- 通过正则表达式解析日志,过滤出404 状态码的日志
- 按日期统计404 错误次数,并排序
- 最后展示折线图,直观显示每日 404 错误的变化趋势
|
2025-04-14 03:53:43 +08:00 |
|