|
5190f1fb90
|
refactor(2-9):将条形图改为折线图
- 将 matplotlib 绘制条形图的代码修改为绘制折线图
- 使用 plot函数替代 bar 函数,添加 marker、linestyle 等参数以美化图表
|
2025-04-14 04:03:11 +08:00 |
|
|
6a4170c1fe
|
refactor(2-9):将条形图改为折线图
- 将 matplotlib 绘制条形图的代码修改为绘制折线图
- 使用 plot函数替代 bar 函数,添加 marker、linestyle 等参数以美化图表
|
2025-04-14 04:01:02 +08:00 |
|
|
11c1e21778
|
feat:绘制每小时404响应代码数量的条形图
- 使用 Spark 读取和处理日志数据
- 提取每小时的 404 错误记录
- 使用 matplotlib 绘制条形图
- 展示每小时的 404 响应次数
|
2025-04-14 03:59:55 +08:00 |
|
|
d0d58e7d4b
|
feat: 添加 2-8.py 文件并实现每小时 404 错误统计
- 新增 2-8.py 文件,实现从日志文件中解析和统计每小时的 404 错误数量
- 使用 Spark 进行日志处理和分析
- 添加日志解析函数和提取小时函数
- 实现从 HDFS 读取日志数据并进行过滤和聚合
- 最后输出每小时的 404 错误数量
|
2025-04-14 03:57:15 +08:00 |
|
|
4a0b9f0735
|
refactor(2-7.py): 移除不必要的代码并简化获取最多 404 错误记录的五天的逻辑
- 删除了不必要的输出前五天及其 404 错误记录的代码
- 删除了不必要的停止 Spark 代码
- 简化了获取最多 404 错误记录的五天的逻辑
|
2025-04-14 03:55:54 +08:00 |
|
|
d67642da65
|
refactor(2-7.py): 移除不必要的代码并简化获取最多 404 错误记录的五天的逻辑
- 删除了不必要的输出前五天及其 404 错误记录的代码
- 删除了不必要的停止 Spark 代码
- 简化了获取最多 404 错误记录的五天的逻辑
|
2025-04-14 03:54:42 +08:00 |
|
|
fbb71a0e8e
|
feat:绘制每日 404 响应代码记录的折线图
- 新增2-6.py 文件,实现日志解析和统计功能
- 使用 Spark 集群处理大规模日志数据
- 提取每日404 错误次数并使用 Matplotlib 绘制折线图
- 通过正则表达式解析日志,过滤出404 状态码的日志
- 按日期统计404 错误次数,并排序
- 最后展示折线图,直观显示每日 404 错误的变化趋势
|
2025-04-14 03:53:43 +08:00 |
|
|
ede4f6c21f
|
feat:绘制每日 404 响应代码记录的折线图
- 新增2-6.py 文件,实现日志解析和统计功能
- 使用 Spark 集群处理大规模日志数据
- 提取每日404 错误次数并使用 Matplotlib 绘制折线图
- 通过正则表达式解析日志,过滤出404 状态码的日志
- 按日期统计404 错误次数,并排序
- 最后展示折线图,直观显示每日 404 错误的变化趋势
|
2025-04-14 03:51:05 +08:00 |
|
|
9469f76e1a
|
feat:统计每日 404 错误记录数量- 新增 2-5.py 文件,实现 Apache 日志解析和 404 错误统计功能
- 使用 Spark 计算框架处理大规模日志数据
- 提取日志中的日期信息,统计每日 404 错误次数
- 结果按日期排序并输出
|
2025-04-14 03:49:08 +08:00 |
|
|
4747d647c7
|
refactor(2-3.py): 重构日志分析代码并提取 404 错误最多的端点
- 重命名变量和函数以提高代码可读性
- 修改日志解析逻辑,优化错误处理
- 提取状态码为 404 的日志并计算触发错误最多的端点
- 输出前 20个触发 404 错误最多的端点
|
2025-04-14 03:46:02 +08:00 |
|
|
1512ab8eeb
|
feat: 实现日志解析和 404 错误分析
- 添加日志解析函数,使用正则表达式解析 Apache 日志
- 通过 Spark 读取和处理日志数据
- 实现 404 错误日志的过滤和统计- 获取并打印前 25 个产生 404错误最多的主机
|
2025-04-14 03:40:00 +08:00 |
|
|
e556d97aca
|
feat: 添加日志解析和404 错误统计功能
- 新增日志解析函数 parse_log_line,用于解析 Apache 日志
- 添加过滤 404 错误的函数 filter_404
- 实现从 HDFS 读取日志、解析、过滤和统计 404 错误的完整流程- 打印 404 错误记录的数量
|
2025-04-14 03:35:39 +08:00 |
|
|
beb743f10d
|
feat: 添加日志解析和404 错误统计功能
- 新增日志解析函数 parse_log_line,用于解析 Apache 日志
- 添加过滤 404 错误的函数 filter_404
- 实现从 HDFS 读取日志、解析、过滤和统计 404 错误的完整流程- 打印 404 错误记录的数量
|
2025-04-14 03:29:09 +08:00 |
|
|
e64886745b
|
feat: 添加日志解析和404 错误统计功能
- 新增日志解析函数 parse_log_line,用于解析 Apache 日志
- 添加过滤 404 错误的函数 filter_404
- 实现从 HDFS 读取日志、解析、过滤和统计 404 错误的完整流程- 打印 404 错误记录的数量
|
2025-04-14 02:39:43 +08:00 |
|
|
2f47d1d55b
|
feat: 添加 1-6.py 以计算每日平均请求量并绘图
- 新增 1-6.py 文件,实现以下功能:
- 从 HDFS读取日志文件
- 解析日志以获取每日请求数和唯一主机数 - 计算每日平均请求量
- 使用 Matplotlib 绘制折线图展示结果
- 该脚本为后续的1-7 绘制平均请求量折线图提供了数据准备
|
2025-04-14 02:31:43 +08:00 |
|
|
673d4ab1a3
|
feat(1-5): 计算每天平均每个主机的请求数
- 读取 HDFS 中的日志文件
- 解析日期和主机信息
- 计算每天的总请求数和唯一主机数
- 合并结果并计算平均值
- 输出每天每个主机的平均请求数
|
2025-04-14 02:27:07 +08:00 |
|
|
60c3a1e4ca
|
plot(dailyHosts): 绘制每日唯一主机数量图表
- 从 Apache 日志文件中提取日期和 IP 地址
- 计算每日的唯一主机数量
- 使用 Matplotlib 绘制折线图
- 添加图表标题、轴标签和网格
|
2025-04-14 02:19:26 +08:00 |
|
|
9e9d18b78e
|
feat:统计每天的独立访客数
- 读取 HDFS 上的 Apache 日志文件
- 解析日志,提取日期和 IP 地址
- 去重后按天统计独立访客数
- 结果按日期排序并打印
|
2025-04-14 02:12:36 +08:00 |
|
|
bed459e4c5
|
feat:统计 HDFS 日志中的唯一主机数量
- 添加 Spark 代码以读取 HDFS 上的日志文件
- 实现日志行解析函数以提取 IP 地址
- 使用 RDD操作过滤并计算唯一主机数量- 打印结果并停止 SparkContext
|
2025-04-14 01:58:03 +08:00 |
|
|
28d60018af
|
fix(1-1.py):优化日志解析和空 RDD处理
- 重构日志解析逻辑,提高代码可读性
- 改进空 RDD检查方法,使用 count() 替代 isEmpty()
- 优化输出格式,使用格式化字符串替代 f-string
|
2025-04-14 01:51:33 +08:00 |
|
|
c48a91f11e
|
refactor(1-1.py): 重构日志分析代码
- 重新编写日志解析逻辑,使用正则表达式匹配日志行
- 添加错误处理和日志文件为空时的处理逻辑- 优化 Top 10 最常访问的端点统计代码- 使用 f-string 改进代码可读性
- 添加 SparkContext 初始化和停止逻辑
|
2025-04-14 01:49:05 +08:00 |
|
|
329b28dc26
|
分析:新增失败URL分析功能- 从日志中筛选出响应码非200的请求
- 统计每个URL的失败次数
- 获取失败次数最多的前10个URL
-打印结果
|
2025-04-14 01:46:24 +08:00 |
|
|
6eb33193b8
|
feat(log_analysis_step2.py): 添加日志分析功能
- 新增日志解析、内容大小分析、响应码分析等功能
- 实现了访问最多的主机和端点统计
- 添加了数据可视化图表,包括响应码分布和热门端点
|
2025-04-14 01:10:45 +08:00 |
|
|
be8b493597
|
test(pretest1.py): 添加日志解析测试功能
- 新增日志解析函数和相关辅助函数
- 实现日志文件读取和解析逻辑
- 添加测试用例以验证解析功能
- 优化代码结构和可读性
|
2025-04-14 01:00:04 +08:00 |
|
|
3dc9473341
|
feat: init files
|
2025-04-13 16:57:29 +00:00 |
|