feat: 添加日志解析和404 错误统计功能
- 新增日志解析函数 parse_log_line,用于解析 Apache 日志 - 添加过滤 404 错误的函数 filter_404 - 实现从 HDFS 读取日志、解析、过滤和统计 404 错误的完整流程- 打印 404 错误记录的数量
This commit is contained in:
parent
e64886745b
commit
beb743f10d
8
2-1.py
8
2-1.py
@ -35,13 +35,13 @@ def filter_404(log):
|
||||
# 解析并过滤日志
|
||||
parsed_logs = raw_logs.map(parse_log_line).filter(lambda x: x is not None)
|
||||
|
||||
# 过滤出 404 错误记录
|
||||
# 过滤出 404 错误记录并缓存
|
||||
error_404_logs = parsed_logs.filter(filter_404).cache()
|
||||
|
||||
# 统计 404 错误的数量
|
||||
# 统计 404 错误数量
|
||||
count_404 = error_404_logs.count()
|
||||
|
||||
# 打印 404 错误记录数量
|
||||
print(f"日志中共有 {count_404} 条 404 响应代码记录。")
|
||||
# 打印结果(使用 .format 替代 f-string)
|
||||
print("日志中共有 {} 条 404 响应代码记录。".format(count_404))
|
||||
|
||||
sc.stop()
|
||||
|
Loading…
Reference in New Issue
Block a user