Commit Graph

4 Commits

Author SHA1 Message Date
33687f9fcd feat(4-1): 重构代码以实现 Amazon 和 Google 数据集的余弦相似度计算
- 重新组织代码结构,优化导入和变量定义
- 添加 TF-IDF 和余弦相似度计算函数
- 实现 Amazon 和 Google 数据集的解析和处理
-计算并输出指定 ID 对的相似度
2025-04-20 02:38:15 +08:00
15fcc21975 refactor(4-1):重构数据加载和解析逻辑
- 移除了不必要的导入和未使用的代码
- 新增了 parseData 和 loadData 函数,用于解析和加载数据文件
- 优化了数据解析的正则表达式和逻辑
- 简化了代码结构,提高了可读性和可维护性
2025-04-20 02:32:18 +08:00
e84c0ff633 style(4-1): 替换 f-string 为 format 方法- 将 f-string 替换为 str.format 方法,以适应 Python 3.6 以下版本- 修改了三处 print 语句和一处变量赋值,使用 str.format 方法替代 f-string 2025-04-20 02:29:25 +08:00
250e1b99e0 feat(similarity): 添加文本相似度计算功能
- 实现了计算两个文本之间相似度的完整流程
- 包括 TF-IDF 计算、余弦相似度计算等功能
- 使用 Spark 广播变量优化计算效率
-支持从 HDFS 读取数据进行计算
2025-04-20 02:24:10 +08:00