Commit Graph

26 Commits

Author SHA1 Message Date
d611a30082 feat(6-1): 实现 TF-IDF 和余弦相似度计算
- 添加分词和数据解析功能
- 实现逆文档频率 (IDF) 计算
- 计算 TF-IDF 权重
- 添加向量范数计算
- 实现倒排索引和快速余弦相似度计算
- 处理完整数据集并计算相似度
2025-04-20 03:21:04 +08:00
5770bc266e feat(6-1): 实现 TF-IDF 和余弦相似度计算
- 添加分词和数据解析功能
- 实现逆文档频率 (IDF) 计算
- 计算 TF-IDF 权重
- 添加向量范数计算
- 实现倒排索引和快速余弦相似度计算
- 处理完整数据集并计算相似度
2025-04-20 03:19:24 +08:00
6f703860a6 feat(6-1.py): 新增文本分析功能
- 创建 SparkContext 和相关 RDD
- 计算真阳性相似度和累加器
- 定义精度、召回率和 F 度量的计算方法
- 生成阈值列表并计算对应指标值
- 绘制精度、召回率和 F 度量的折线图
- 停止 SparkContext
2025-04-20 03:16:29 +08:00
14552b200f test(5-1.py):优化相似度测试逻辑并增强错误提示
- 打印相似度测试结果及其数量,提供更详细的输出信息
- 增加对无匹配记录的警告提示,提高错误处理的友好性
- 保留原有的断言测试,确保代码功能不变
2025-04-20 03:09:53 +08:00
dcf2d79bbf test: 更新相似度计算测试用例
- 修改了相似度测试用例的断言条件,将固定值改为不等式判断- 更新了 similaritiesFullRDD.count() 的期望值
- 优化了代码格式,去除了不必要的换行
2025-04-20 03:08:10 +08:00
cace440204 test(5-1): 修正变量名大小写并进行代码格式化
- 将 similarities_full_rdd 修正为 similaritiesFullRDD- 调整代码缩进和格式
2025-04-20 03:06:47 +08:00
6e973586e0 refactor(5-1):重构代码以提高可读性和效率
- 重新组织代码结构,使逻辑更清晰
- 使用更有意义的变量名,提高代码可读性
- 移除冗余的中间变量,简化代码- 添加注释以解释关键步骤
2025-04-20 03:05:48 +08:00
1d16bebe43 refactor(5-1):重构代码以提高可读性和效率
- 重新组织代码结构,使逻辑更清晰
- 使用更有意义的变量名,提高代码可读性
- 移除冗余的中间变量,简化代码- 添加注释以解释关键步骤
2025-04-20 03:04:39 +08:00
036a740505 perf(5-1.py):优化 token 权重计算逻辑- 修改了计算 token 权重乘积的方式,仅在 token同时存在于 Amazon 和 Google 数据中时进行计算
- 这样可以减少不必要的计算,提高代码执行效率
2025-04-20 03:01:42 +08:00
38917b896f refactor(5-1):重构代码以提高可读性和性能
- 移除了未使用的 data_source 参数
- 优化了 parse_data_file 和 load_data 函数- 使用 .get() 方法安全访问字典元素
- 改进了 cosine_sim 函数,使用广播变量计算余弦相似度
2025-04-20 03:00:37 +08:00
dc883eaf72 feat: 创建亚马逊和谷歌权重的广播变量
- 新增广播变量 amazon_weights_broadcast 和 google_weights_broadcast- 使用 collectAsMap() 方法将 RDD 转换为字典并进行广播
- 这些广播变量可以用于后续的分布式计算中,提高效率
2025-04-20 02:55:27 +08:00
8bccc2cad7 style(5-1): 移除测试断言中的 f-string- 删除了测试断言中不必要的 f-string 表达式
- 简化了断言的错误信息输出格式
2025-04-20 02:54:00 +08:00
8fcedbec41 style(5-1): 移除测试断言中的 f-string- 删除了测试断言中不必要的 f-string 表达式
- 简化了断言的错误信息输出格式
2025-04-20 02:51:10 +08:00
6e80f59ea1 style(5-1): 优化 print 语句格式
-将 print 语句中的格式化字符串改为使用 format 方法
- 提高了代码的可读性和兼容性
2025-04-20 02:49:41 +08:00
9921a965ae feat(5-1.py): 实现可扩展实体匹配算法
- 创建 SparkContext 和 SQLContext
- 读取和解析 Amazon 和 Google 数据集
- 实现数据分词、TF-IDF 计算、余弦相似度计算等功能- 创建和使用广播变量提高计算效率
- 优化实体匹配算法以处理大规模数据集
2025-04-20 02:47:48 +08:00
33687f9fcd feat(4-1): 重构代码以实现 Amazon 和 Google 数据集的余弦相似度计算
- 重新组织代码结构,优化导入和变量定义
- 添加 TF-IDF 和余弦相似度计算函数
- 实现 Amazon 和 Google 数据集的解析和处理
-计算并输出指定 ID 对的相似度
2025-04-20 02:38:15 +08:00
15fcc21975 refactor(4-1):重构数据加载和解析逻辑
- 移除了不必要的导入和未使用的代码
- 新增了 parseData 和 loadData 函数,用于解析和加载数据文件
- 优化了数据解析的正则表达式和逻辑
- 简化了代码结构,提高了可读性和可维护性
2025-04-20 02:32:18 +08:00
e84c0ff633 style(4-1): 替换 f-string 为 format 方法- 将 f-string 替换为 str.format 方法,以适应 Python 3.6 以下版本- 修改了三处 print 语句和一处变量赋值,使用 str.format 方法替代 f-string 2025-04-20 02:29:25 +08:00
250e1b99e0 feat(similarity): 添加文本相似度计算功能
- 实现了计算两个文本之间相似度的完整流程
- 包括 TF-IDF 计算、余弦相似度计算等功能
- 使用 Spark 广播变量优化计算效率
-支持从 HDFS 读取数据进行计算
2025-04-20 02:24:10 +08:00
1043551309 feat(3-1.py): 实现 TF-IDF 权重计算并优化代码结构
- 新增辅助函数:tokenize、tf、idfs、tfidf
-优化数据加载与预处理逻辑- 实现全局 IDF 计算并绘制直方图
-完成全局 TF-IDF 计算并保存结果到 HDFS- 增加针对特定 Amazon 记录的 TF-IDF计算示例
- 优化代码注释和结构,提高可读性
2025-04-16 10:08:50 +08:00
739ad9d6cb fix(3-1): 更新 HDFS 地址
- 将 HDFS 地址从 "hdfs:///user/root/output/inverted_index" 修改为 "hdfs://master:9000/user/root/output/inverted_index"
- 这个修改可能是为了适应不同的 HDFS集群配置,确保数据保存到正确的地址
2025-04-16 09:53:48 +08:00
ceaf470df4 fix(3-1): 更新 HDFS 地址
- 将 HDFS 地址从 "hdfs:///user/root/output/inverted_index" 修改为 "hdfs://master:9000/user/root/output/inverted_index"
- 这个修改可能是为了适应不同的 HDFS集群配置,确保数据保存到正确的地址
2025-04-16 09:46:39 +08:00
4c79cad322 fix(data): 更新数据文件路径- 将 GoogleProducts.csv 和 AmazonProducts.csv 替换为 Google.csv 和 Amazon.csv
- 确保代码能够正确加载数据文件
2025-04-16 09:45:22 +08:00
4233cfc792 fix(3-1): 更新 stopwords.txt 文件路径
- 将 HDFS 文件路径从相对路径改为绝对路径
- 新路径为 "hdfs://master:9000/user/root/stopwords.txt"
- 此修改提高了文件访问的准确性和可靠性
2025-04-16 09:44:12 +08:00
c699e3d21e feat(3-1.py):重构代码以构建倒排索引
- 重新设计代码结构,添加函数以提高可读性和可维护性
- 增加对 stopwords 的处理,提高索引准确性
- 使用 csv 模块解析 CSV 数据,提高数据处理能力
- 优化文本分词和数据提取逻辑,增强数据处理效率
- 构建倒排索引并保存到 HDFS,实现数据索引功能
2025-04-16 09:43:34 +08:00
8e93a04382 init code 2025-04-16 01:40:52 +00:00