BD-exp-9
- 创建 SparkContext 和 SQLContext - 读取和解析 Amazon 和 Google 数据集 - 实现数据分词、TF-IDF 计算、余弦相似度计算等功能- 创建和使用广播变量提高计算效率 - 优化实体匹配算法以处理大规模数据集 |
||
---|---|---|
1-1.py | ||
2-1.py | ||
3-1.py | ||
4-1.py | ||
5-1.py |
- 创建 SparkContext 和 SQLContext - 读取和解析 Amazon 和 Google 数据集 - 实现数据分词、TF-IDF 计算、余弦相似度计算等功能- 创建和使用广播变量提高计算效率 - 优化实体匹配算法以处理大规模数据集 |
||
---|---|---|
1-1.py | ||
2-1.py | ||
3-1.py | ||
4-1.py | ||
5-1.py |