- 重命名变量和函数以提高代码可读性 - 修改日志解析逻辑,优化错误处理 - 提取状态码为 404 的日志并计算触发错误最多的端点 - 输出前 20个触发 404 错误最多的端点
- 添加日志解析函数,使用正则表达式解析 Apache 日志 - 通过 Spark 读取和处理日志数据 - 实现 404 错误日志的过滤和统计- 获取并打印前 25 个产生 404错误最多的主机