Commit Graph

4 Commits

Author SHA1 Message Date
4c79cad322 fix(data): 更新数据文件路径- 将 GoogleProducts.csv 和 AmazonProducts.csv 替换为 Google.csv 和 Amazon.csv
- 确保代码能够正确加载数据文件
2025-04-16 09:45:22 +08:00
4233cfc792 fix(3-1): 更新 stopwords.txt 文件路径
- 将 HDFS 文件路径从相对路径改为绝对路径
- 新路径为 "hdfs://master:9000/user/root/stopwords.txt"
- 此修改提高了文件访问的准确性和可靠性
2025-04-16 09:44:12 +08:00
c699e3d21e feat(3-1.py):重构代码以构建倒排索引
- 重新设计代码结构,添加函数以提高可读性和可维护性
- 增加对 stopwords 的处理,提高索引准确性
- 使用 csv 模块解析 CSV 数据,提高数据处理能力
- 优化文本分词和数据提取逻辑,增强数据处理效率
- 构建倒排索引并保存到 HDFS,实现数据索引功能
2025-04-16 09:43:34 +08:00
8e93a04382 init code 2025-04-16 01:40:52 +00:00