Commit Graph

10 Commits

Author SHA1 Message Date
15fcc21975 refactor(4-1):重构数据加载和解析逻辑
- 移除了不必要的导入和未使用的代码
- 新增了 parseData 和 loadData 函数,用于解析和加载数据文件
- 优化了数据解析的正则表达式和逻辑
- 简化了代码结构,提高了可读性和可维护性
2025-04-20 02:32:18 +08:00
e84c0ff633 style(4-1): 替换 f-string 为 format 方法- 将 f-string 替换为 str.format 方法,以适应 Python 3.6 以下版本- 修改了三处 print 语句和一处变量赋值,使用 str.format 方法替代 f-string 2025-04-20 02:29:25 +08:00
250e1b99e0 feat(similarity): 添加文本相似度计算功能
- 实现了计算两个文本之间相似度的完整流程
- 包括 TF-IDF 计算、余弦相似度计算等功能
- 使用 Spark 广播变量优化计算效率
-支持从 HDFS 读取数据进行计算
2025-04-20 02:24:10 +08:00
1043551309 feat(3-1.py): 实现 TF-IDF 权重计算并优化代码结构
- 新增辅助函数:tokenize、tf、idfs、tfidf
-优化数据加载与预处理逻辑- 实现全局 IDF 计算并绘制直方图
-完成全局 TF-IDF 计算并保存结果到 HDFS- 增加针对特定 Amazon 记录的 TF-IDF计算示例
- 优化代码注释和结构,提高可读性
2025-04-16 10:08:50 +08:00
739ad9d6cb fix(3-1): 更新 HDFS 地址
- 将 HDFS 地址从 "hdfs:///user/root/output/inverted_index" 修改为 "hdfs://master:9000/user/root/output/inverted_index"
- 这个修改可能是为了适应不同的 HDFS集群配置,确保数据保存到正确的地址
2025-04-16 09:53:48 +08:00
ceaf470df4 fix(3-1): 更新 HDFS 地址
- 将 HDFS 地址从 "hdfs:///user/root/output/inverted_index" 修改为 "hdfs://master:9000/user/root/output/inverted_index"
- 这个修改可能是为了适应不同的 HDFS集群配置,确保数据保存到正确的地址
2025-04-16 09:46:39 +08:00
4c79cad322 fix(data): 更新数据文件路径- 将 GoogleProducts.csv 和 AmazonProducts.csv 替换为 Google.csv 和 Amazon.csv
- 确保代码能够正确加载数据文件
2025-04-16 09:45:22 +08:00
4233cfc792 fix(3-1): 更新 stopwords.txt 文件路径
- 将 HDFS 文件路径从相对路径改为绝对路径
- 新路径为 "hdfs://master:9000/user/root/stopwords.txt"
- 此修改提高了文件访问的准确性和可靠性
2025-04-16 09:44:12 +08:00
c699e3d21e feat(3-1.py):重构代码以构建倒排索引
- 重新设计代码结构,添加函数以提高可读性和可维护性
- 增加对 stopwords 的处理,提高索引准确性
- 使用 csv 模块解析 CSV 数据,提高数据处理能力
- 优化文本分词和数据提取逻辑,增强数据处理效率
- 构建倒排索引并保存到 HDFS,实现数据索引功能
2025-04-16 09:43:34 +08:00
8e93a04382 init code 2025-04-16 01:40:52 +00:00