Commit Graph

7 Commits

Author SHA1 Message Date
1043551309 feat(3-1.py): 实现 TF-IDF 权重计算并优化代码结构
- 新增辅助函数:tokenize、tf、idfs、tfidf
-优化数据加载与预处理逻辑- 实现全局 IDF 计算并绘制直方图
-完成全局 TF-IDF 计算并保存结果到 HDFS- 增加针对特定 Amazon 记录的 TF-IDF计算示例
- 优化代码注释和结构,提高可读性
2025-04-16 10:08:50 +08:00
739ad9d6cb fix(3-1): 更新 HDFS 地址
- 将 HDFS 地址从 "hdfs:///user/root/output/inverted_index" 修改为 "hdfs://master:9000/user/root/output/inverted_index"
- 这个修改可能是为了适应不同的 HDFS集群配置,确保数据保存到正确的地址
2025-04-16 09:53:48 +08:00
ceaf470df4 fix(3-1): 更新 HDFS 地址
- 将 HDFS 地址从 "hdfs:///user/root/output/inverted_index" 修改为 "hdfs://master:9000/user/root/output/inverted_index"
- 这个修改可能是为了适应不同的 HDFS集群配置,确保数据保存到正确的地址
2025-04-16 09:46:39 +08:00
4c79cad322 fix(data): 更新数据文件路径- 将 GoogleProducts.csv 和 AmazonProducts.csv 替换为 Google.csv 和 Amazon.csv
- 确保代码能够正确加载数据文件
2025-04-16 09:45:22 +08:00
4233cfc792 fix(3-1): 更新 stopwords.txt 文件路径
- 将 HDFS 文件路径从相对路径改为绝对路径
- 新路径为 "hdfs://master:9000/user/root/stopwords.txt"
- 此修改提高了文件访问的准确性和可靠性
2025-04-16 09:44:12 +08:00
c699e3d21e feat(3-1.py):重构代码以构建倒排索引
- 重新设计代码结构,添加函数以提高可读性和可维护性
- 增加对 stopwords 的处理,提高索引准确性
- 使用 csv 模块解析 CSV 数据,提高数据处理能力
- 优化文本分词和数据提取逻辑,增强数据处理效率
- 构建倒排索引并保存到 HDFS,实现数据索引功能
2025-04-16 09:43:34 +08:00
8e93a04382 init code 2025-04-16 01:40:52 +00:00