标签BigData下的文章

qfdk 发布于 12月23, 2017

Apache Spark 使用 Pipeline 和 LDA 模型

简介离开之前的公司快4个月了,现在整理一下以前干的东西.算是扔出一点儿干货吧 :) 之前的博客发表过一篇了,这里是技术博客,技术博客! 之前没有专门研究过大数据和机器学习,但是也做了不少东西都是现学现卖,成果还是可以的. 语言是自己认为比较反人类的语言 Scala.工作环境:Scala IEDScala 2.10.6Apache Spark 1.6.1Apache Zepplin这些版本要对应起来,要不然吃不了兜着走。这里集群的管理工具是ambari, 这个工具可以让你轻松的管理集群.这里我们用的是 Spark on Yarn 模式,其中进行提交任务又有两种模式,这里简单的说一句,这两种模...

阅读全文 »