- 移除了不必要的导入和未使用的代码 - 新增了 parseData 和 loadData 函数,用于解析和加载数据文件 - 优化了数据解析的正则表达式和逻辑 - 简化了代码结构,提高了可读性和可维护性
- 实现了计算两个文本之间相似度的完整流程 - 包括 TF-IDF 计算、余弦相似度计算等功能 - 使用 Spark 广播变量优化计算效率 -支持从 HDFS 读取数据进行计算