- 优化了 ratings 和 movies 数据的解析逻辑- 添加了排序函数和测试用例,用于验证排序功能 - 更新了 Spark 集群连接和 Python 版本设置 - 改进了代码格式和变量命名,提高了可读性
- 新增 data_prepare.py 文件,用于初始化和处理电影评分数据 - 实现了从 HDFS 读取 ratings 和 movies 数据的功能 - 提供了数据解析和缓存的逻辑,为后续处理做准备