|
cfe38d1a48
|
fix(spark): 修复 Spark任务失败和容器丢失问题
- 修复了由于 executor 宕机导致的任务失败问题
- 优化了资源分配和错误处理机制- 增加了对异常日志的监控和分析
|
2025-04-22 16:07:19 +08:00 |
|
|
ee82521560
|
feat(self_recommend): 添加基于协同过滤的个性化电影推荐功能
- 新增数据加载和预处理模块,使用 data_prepare.py 准备数据
- 实现了基于 ALS算法的电影推荐系统- 添加了个人评分数据,实现了个性化的电影推荐
- 优化了模型参数,提高了推荐系统的准确性
- 增加了推荐结果的输出,方便用户查看
|
2025-04-22 15:55:10 +08:00 |
|
|
107d84f167
|
refactor(self_recommand): 重构电影推荐系统
- 优化了数据加载和预处理逻辑
- 改进了 RMSE 计算函数,增加了对空数据的处理
- 添加了对验证集和测试集的预测与评估
- 移除了个人评分和电影推荐的相关代码
|
2025-04-22 15:54:23 +08:00 |
|
|
3b507342c3
|
fix: error.txt
|
2025-04-22 07:47:29 +00:00 |
|
|
de024388a1
|
feat(self_recommand): 添加个性化电影推荐系统
- 实现了一个基于Spark的电影推荐系统
-包含数据准备、模型训练、误差计算等功能
- 能够根据用户历史评分和未观看电影进行个性化推荐
- 输出 Top25 电影推荐列表
|
2025-04-22 15:41:20 +08:00 |
|
|
4d50e6cdc2
|
fix: error.txt
|
2025-04-22 06:54:29 +00:00 |
|
|
6c9f1149a4
|
fix: error.txt
|
2025-04-22 06:28:02 +00:00 |
|
|
2e56c9d39f
|
feat(collab_filter): 添加协同过滤电影推荐功能
- 新增 collab_filter.py 文件实现电影推荐系统
- 使用 ALS 算法进行协同过滤
- 优化模型参数,找到最佳 rank
-计算训练集和测试集的 RMSE
- 与平均评分进行对比,验证模型效果
|
2025-04-22 14:22:40 +08:00 |
|
|
90d4056157
|
style(basic_re.py): 优化代码格式
- 删除多余的空行
- 将长行代码进行适当折行,提高可读性
|
2025-04-22 14:18:02 +08:00 |
|
|
d9d9e2603e
|
fix: fixed python environ error
|
2025-04-22 06:12:24 +00:00 |
|
|
a7039966c4
|
style(basic_re.py): 优化代码格式
- 删除多余的空行
- 将长行代码进行适当折行,提高可读性
|
2025-04-22 14:07:01 +08:00 |
|
|
cf26e01935
|
refactor(basic_re): 重构电影评分数据处理逻辑
-移除了不必要的环境变量设置和测试代码
- 新增 data_prepare模块用于初始化 RDD
- 添加了计算电影平均评分和过滤高评分电影的功能
- 优化了代码结构,提高了可读性和可维护性
|
2025-04-22 14:02:26 +08:00 |
|
|
80bdb59d66
|
feat(basic): 添加基本的 Spark 用例
- 新增 basic_re.py 文件,实现了一个简单的 Spark 应用程序
- 该程序从 HDFS 读取电影评分数据,进行基本的数据处理和统计
- 演示了如何使用 Spark RDD 进行数据转换和操作
- 验证了数据排序和比较的功能
|
2025-04-22 13:56:56 +08:00 |
|
|
0ddd2d776a
|
style(data_prepare): 修改缩进以符合 PEP 8 规范
- 将 sc = SparkContext.getOrCreate(conf) 的缩进调整为 4 个空格- 保持了代码的整洁和一致性
|
2025-04-22 13:48:13 +08:00 |
|
|
67d34ad0ba
|
fix: 设置 PySpark 的 Python环境变量
- 添加 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 环境变量设置
- 指定 Python 3.6 作为 PySpark 的 Python 版本
|
2025-04-22 13:47:31 +08:00 |
|
|
5c00db57ff
|
fix: fixed python environ error
|
2025-04-22 05:42:16 +00:00 |
|
|
73ae9b135b
|
fix: 设置 PySpark 的 Python环境变量
- 添加 PYSPARK_PYTHON 和 PYSPARK_DRIVER_PYTHON 环境变量设置
- 指定 Python 3.6 作为 PySpark 的 Python 版本
|
2025-04-22 13:39:30 +08:00 |
|
|
2018debf80
|
refactor(data_prepare): 重构数据准备脚本
- 优化了代码结构,提高了代码可读性和维护性
- 改进了变量命名,使其更具描述性和一致性- 删除了未使用的函数和测试代码,精简了脚本内容
- 更新了字符串格式化方法,使用了更现代的 f-string 方式
|
2025-04-22 13:22:34 +08:00 |
|
|
554928b81f
|
refactor(data_prepare): 重构数据准备脚本
- 优化了 ratings 和 movies 数据的解析逻辑- 添加了排序函数和测试用例,用于验证排序功能
- 更新了 Spark 集群连接和 Python 版本设置
- 改进了代码格式和变量命名,提高了可读性
|
2025-04-22 13:16:54 +08:00 |
|
|
3cb7ec6dba
|
feat(data): 添加数据准备脚本
- 新增 data_prepare.py 文件,用于初始化和处理电影评分数据
- 实现了从 HDFS 读取 ratings 和 movies 数据的功能
- 提供了数据解析和缓存的逻辑,为后续处理做准备
|
2025-04-22 13:12:18 +08:00 |
|
|
254e595256
|
feat init test_helper
|
2025-04-21 03:49:11 +00:00 |
|