Commit Graph

6 Commits

Author SHA1 Message Date
38917b896f refactor(5-1):重构代码以提高可读性和性能
- 移除了未使用的 data_source 参数
- 优化了 parse_data_file 和 load_data 函数- 使用 .get() 方法安全访问字典元素
- 改进了 cosine_sim 函数,使用广播变量计算余弦相似度
2025-04-20 03:00:37 +08:00
dc883eaf72 feat: 创建亚马逊和谷歌权重的广播变量
- 新增广播变量 amazon_weights_broadcast 和 google_weights_broadcast- 使用 collectAsMap() 方法将 RDD 转换为字典并进行广播
- 这些广播变量可以用于后续的分布式计算中,提高效率
2025-04-20 02:55:27 +08:00
8bccc2cad7 style(5-1): 移除测试断言中的 f-string- 删除了测试断言中不必要的 f-string 表达式
- 简化了断言的错误信息输出格式
2025-04-20 02:54:00 +08:00
8fcedbec41 style(5-1): 移除测试断言中的 f-string- 删除了测试断言中不必要的 f-string 表达式
- 简化了断言的错误信息输出格式
2025-04-20 02:51:10 +08:00
6e80f59ea1 style(5-1): 优化 print 语句格式
-将 print 语句中的格式化字符串改为使用 format 方法
- 提高了代码的可读性和兼容性
2025-04-20 02:49:41 +08:00
9921a965ae feat(5-1.py): 实现可扩展实体匹配算法
- 创建 SparkContext 和 SQLContext
- 读取和解析 Amazon 和 Google 数据集
- 实现数据分词、TF-IDF 计算、余弦相似度计算等功能- 创建和使用广播变量提高计算效率
- 优化实体匹配算法以处理大规模数据集
2025-04-20 02:47:48 +08:00