refactor(2-9.py): 更新日志文件路径为 HDFS 路径
- 将本地日志文件路径替换为 HDFS 路径,以便在分布式环境中处理大数据 - 此修改允许 Spark 从 HDFS 中读取日志数据,提高了数据处理的可扩展性和容错性
This commit is contained in:
parent
eb42506ea8
commit
ee0754ff2f
2
2-9.py
2
2-9.py
@ -49,7 +49,7 @@ def main():
|
|||||||
.getOrCreate()
|
.getOrCreate()
|
||||||
|
|
||||||
# 读取日志文件
|
# 读取日志文件
|
||||||
logFile = 'apache.access.log.PROJECT' # 替换为您的日志文件路径
|
logFile = 'hdfs://master:9000/user/root/apache.access.log.PROJECT'
|
||||||
rdd = spark.sparkContext.textFile(logFile)
|
rdd = spark.sparkContext.textFile(logFile)
|
||||||
|
|
||||||
# 解析日志行
|
# 解析日志行
|
||||||
|
Loading…
Reference in New Issue
Block a user