refactor(2-9.py): 更新日志文件路径为 HDFS 路径

- 将本地日志文件路径替换为 HDFS 路径,以便在分布式环境中处理大数据
- 此修改允许 Spark 从 HDFS 中读取日志数据,提高了数据处理的可扩展性和容错性
This commit is contained in:
fly6516 2025-04-14 04:06:06 +08:00
parent eb42506ea8
commit ee0754ff2f

2
2-9.py
View File

@ -49,7 +49,7 @@ def main():
.getOrCreate()
# 读取日志文件
logFile = 'apache.access.log.PROJECT' # 替换为您的日志文件路径
logFile = 'hdfs://master:9000/user/root/apache.access.log.PROJECT'
rdd = spark.sparkContext.textFile(logFile)
# 解析日志行