Commit Graph

14 Commits

Author SHA1 Message Date
e556d97aca feat: 添加日志解析和404 错误统计功能
- 新增日志解析函数 parse_log_line,用于解析 Apache 日志
- 添加过滤 404 错误的函数 filter_404
- 实现从 HDFS 读取日志、解析、过滤和统计 404 错误的完整流程- 打印 404 错误记录的数量
2025-04-14 03:35:39 +08:00
beb743f10d feat: 添加日志解析和404 错误统计功能
- 新增日志解析函数 parse_log_line,用于解析 Apache 日志
- 添加过滤 404 错误的函数 filter_404
- 实现从 HDFS 读取日志、解析、过滤和统计 404 错误的完整流程- 打印 404 错误记录的数量
2025-04-14 03:29:09 +08:00
e64886745b feat: 添加日志解析和404 错误统计功能
- 新增日志解析函数 parse_log_line,用于解析 Apache 日志
- 添加过滤 404 错误的函数 filter_404
- 实现从 HDFS 读取日志、解析、过滤和统计 404 错误的完整流程- 打印 404 错误记录的数量
2025-04-14 02:39:43 +08:00
2f47d1d55b feat: 添加 1-6.py 以计算每日平均请求量并绘图
- 新增 1-6.py 文件,实现以下功能:
  - 从 HDFS读取日志文件
  - 解析日志以获取每日请求数和唯一主机数 - 计算每日平均请求量
  - 使用 Matplotlib 绘制折线图展示结果
- 该脚本为后续的1-7 绘制平均请求量折线图提供了数据准备
2025-04-14 02:31:43 +08:00
673d4ab1a3 feat(1-5): 计算每天平均每个主机的请求数
- 读取 HDFS 中的日志文件
- 解析日期和主机信息
- 计算每天的总请求数和唯一主机数
- 合并结果并计算平均值
- 输出每天每个主机的平均请求数
2025-04-14 02:27:07 +08:00
60c3a1e4ca plot(dailyHosts): 绘制每日唯一主机数量图表
- 从 Apache 日志文件中提取日期和 IP 地址
- 计算每日的唯一主机数量
- 使用 Matplotlib 绘制折线图
- 添加图表标题、轴标签和网格
2025-04-14 02:19:26 +08:00
9e9d18b78e feat:统计每天的独立访客数
- 读取 HDFS 上的 Apache 日志文件
- 解析日志,提取日期和 IP 地址
- 去重后按天统计独立访客数
- 结果按日期排序并打印
2025-04-14 02:12:36 +08:00
bed459e4c5 feat:统计 HDFS 日志中的唯一主机数量
- 添加 Spark 代码以读取 HDFS 上的日志文件
- 实现日志行解析函数以提取 IP 地址
- 使用 RDD操作过滤并计算唯一主机数量- 打印结果并停止 SparkContext
2025-04-14 01:58:03 +08:00
28d60018af fix(1-1.py):优化日志解析和空 RDD处理
- 重构日志解析逻辑,提高代码可读性
- 改进空 RDD检查方法,使用 count() 替代 isEmpty()
- 优化输出格式,使用格式化字符串替代 f-string
2025-04-14 01:51:33 +08:00
c48a91f11e refactor(1-1.py): 重构日志分析代码
- 重新编写日志解析逻辑,使用正则表达式匹配日志行
- 添加错误处理和日志文件为空时的处理逻辑- 优化 Top 10 最常访问的端点统计代码- 使用 f-string 改进代码可读性
- 添加 SparkContext 初始化和停止逻辑
2025-04-14 01:49:05 +08:00
329b28dc26 分析:新增失败URL分析功能- 从日志中筛选出响应码非200的请求
- 统计每个URL的失败次数
- 获取失败次数最多的前10个URL
-打印结果
2025-04-14 01:46:24 +08:00
6eb33193b8 feat(log_analysis_step2.py): 添加日志分析功能
- 新增日志解析、内容大小分析、响应码分析等功能
- 实现了访问最多的主机和端点统计
- 添加了数据可视化图表,包括响应码分布和热门端点
2025-04-14 01:10:45 +08:00
be8b493597 test(pretest1.py): 添加日志解析测试功能
- 新增日志解析函数和相关辅助函数
- 实现日志文件读取和解析逻辑
- 添加测试用例以验证解析功能
- 优化代码结构和可读性
2025-04-14 01:00:04 +08:00
3dc9473341 feat: init files 2025-04-13 16:57:29 +00:00