BD-exp-8
Go to file
fly6516 ee0754ff2f refactor(2-9.py): 更新日志文件路径为 HDFS 路径
- 将本地日志文件路径替换为 HDFS 路径,以便在分布式环境中处理大数据
- 此修改允许 Spark 从 HDFS 中读取日志数据,提高了数据处理的可扩展性和容错性
2025-04-14 04:06:06 +08:00
.idea feat: init files 2025-04-13 16:57:29 +00:00
1-1.py fix(1-1.py):优化日志解析和空 RDD处理 2025-04-14 01:51:33 +08:00
1-2.py feat:统计 HDFS 日志中的唯一主机数量 2025-04-14 01:58:03 +08:00
1-3.py feat:统计每天的独立访客数 2025-04-14 02:12:36 +08:00
1-4.py plot(dailyHosts): 绘制每日唯一主机数量图表 2025-04-14 02:19:26 +08:00
1-5.py feat(1-5): 计算每天平均每个主机的请求数 2025-04-14 02:27:07 +08:00
1-6.py feat: 添加 1-6.py 以计算每日平均请求量并绘图 2025-04-14 02:31:43 +08:00
2-1.py feat: 添加日志解析和404 错误统计功能 2025-04-14 03:29:09 +08:00
2-2.py feat: 添加日志解析和404 错误统计功能 2025-04-14 03:35:39 +08:00
2-3.py refactor(2-3.py): 重构日志分析代码并提取 404 错误最多的端点 2025-04-14 03:46:02 +08:00
2-4.py refactor(2-3.py): 重构日志分析代码并提取 404 错误最多的端点 2025-04-14 03:46:02 +08:00
2-5.py feat:统计每日 404 错误记录数量- 新增 2-5.py 文件,实现 Apache 日志解析和 404 错误统计功能 2025-04-14 03:49:08 +08:00
2-6.py feat:绘制每日 404 响应代码记录的折线图 2025-04-14 03:51:05 +08:00
2-7.py refactor(2-7.py): 移除不必要的代码并简化获取最多 404 错误记录的五天的逻辑 2025-04-14 03:55:54 +08:00
2-8.py feat: 添加 2-8.py 文件并实现每小时 404 错误统计 2025-04-14 03:57:15 +08:00
2-9.py refactor(2-9.py): 更新日志文件路径为 HDFS 路径 2025-04-14 04:06:06 +08:00
log_analysis_step2.py feat(log_analysis_step2.py): 添加日志分析功能 2025-04-14 01:10:45 +08:00
main.py feat: init files 2025-04-13 16:57:29 +00:00
pretest1.py test(pretest1.py): 添加日志解析测试功能 2025-04-14 01:00:04 +08:00
test_helper.py feat: init files 2025-04-13 16:57:29 +00:00