概述
1.整体程序,没有问题,copy可以运行。path需要路径下需要放几个英文文档。
2.spark ml程序,spark 2.X,Scala 2.11.X,jdk 1.8
3.内容大概为生成英文文档的关键词提取。
4.主要注意spark ml和mlib的区别,我尽量使用的是最新的,ml + dataframe + spark SQL
5.流程:去读英文文档、分词、过滤停用词、创建word2Vec、结果格式化输出
import org.ansj.recognition.impl.StopRecognition
import org.ansj.splitWord.analysis.ToAnalysis
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.ml.feature.{CountVectorizer, RegexTokenizer, StopWordsRemover, Word2Vec}
import org.apache.spark.sql.SQLContext
object word2vec_test01 {
def main(args: Array[String]):Unit={
val conf = new SparkConf().setMaster("local[2]").setAppName("word2vec_test01")
var sc = new SparkContext(conf)
val sqlContext = new SQLContext(sc)
val path = "D:\soft\IDEA\data\input\news_data\*"
val rdd = sc.wholeTextFiles(pat
最后
以上就是留胡子衬衫为你收集整理的spark Scala ml word2Vec 英文文档关键词提取的全部内容,希望文章能够帮你解决spark Scala ml word2Vec 英文文档关键词提取所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复