|
ceaf470df4
|
fix(3-1): 更新 HDFS 地址
- 将 HDFS 地址从 "hdfs:///user/root/output/inverted_index" 修改为 "hdfs://master:9000/user/root/output/inverted_index"
- 这个修改可能是为了适应不同的 HDFS集群配置,确保数据保存到正确的地址
|
2025-04-16 09:46:39 +08:00 |
|
|
4c79cad322
|
fix(data): 更新数据文件路径- 将 GoogleProducts.csv 和 AmazonProducts.csv 替换为 Google.csv 和 Amazon.csv
- 确保代码能够正确加载数据文件
|
2025-04-16 09:45:22 +08:00 |
|
|
4233cfc792
|
fix(3-1): 更新 stopwords.txt 文件路径
- 将 HDFS 文件路径从相对路径改为绝对路径
- 新路径为 "hdfs://master:9000/user/root/stopwords.txt"
- 此修改提高了文件访问的准确性和可靠性
|
2025-04-16 09:44:12 +08:00 |
|
|
c699e3d21e
|
feat(3-1.py):重构代码以构建倒排索引
- 重新设计代码结构,添加函数以提高可读性和可维护性
- 增加对 stopwords 的处理,提高索引准确性
- 使用 csv 模块解析 CSV 数据,提高数据处理能力
- 优化文本分词和数据提取逻辑,增强数据处理效率
- 构建倒排索引并保存到 HDFS,实现数据索引功能
|
2025-04-16 09:43:34 +08:00 |
|
|
8e93a04382
|
init code
|
2025-04-16 01:40:52 +00:00 |
|