统一声明:
1.本站联系方式QQ:1754646538 TG:@UXWNET 如果有其他人通过本站链接联系您导致被骗,本站一律不负责! 2.需要付费搭建请联系站长QQ:1754646538 TG:@UXWNET 3.国外免备案服务器- 游侠云服务 4.免实名域名注册购买- 游侠云域名 5.免实名国外服务器购买- 游侠网云服务资源名称:Spark大数据处理_原理算法与实例
资源目录:
第1章从Hadoop到Spark
1.1Hadoop——大数据时代的火种
1.1.1大数据的由来
1.1.2Google解决大数据计算问题的方法
1.1.3Hadoop的由来与发展
1.2Hadoop的局限性
1.2.1Hadoop运行机制
1.2.2Hadoop的性能问题
1.2.3针对Hadoop的改进
1.3大数据技术新星——Spark
1.3.1Spark的出现与发展
1.3.2Spark协议族
1.3.3Spark的应用及优势
第2章体验Spark
2.1安装和使用Spark
2.1.1安装Spark
2.1.2了解Spark目录结构
2.1.3使用Spark Shell
2.2编写和运行Spark程序
2.2.1安装Scala插件
2.2.2编写Spark程序
2.2.3运行Spark程序
2.3Spark Web UI
2.3.1访问实时Web UI
2.3.2从实时UI查看作业信息
第3章Spark原理
3.1Spark工作原理
3.2Spark架构及运行机制
3.2.1Spark系统架构与节点角色
3.2.2Spark作业执行过程
3.2.3应用初始化
3.2.4构建RDD有向无环图
3.2.5RDD有向无环图拆分
3.2.6Task调度
3.2.7Task执行
第4章RDD算子
4.1创建算子
4.1.1基于集合类型数据创建RDD
4.1.2基于外部数据创建RDD
4.2变换算子
4.2.1对Value型RDD进行变换
4.2.2对Key/Value型RDD进行变换
4.3行动算子
4.3.1数据运算类行动算子
4.3.2存储型行动算子
4.4缓存算子
第5章Spark算法设计
5.1过滤
5.2去重计数
5.3相关计数
5.4相关系数
5.5数据联结
5.6Top—K
5.7K—means
5.8关联规则挖掘
5.9kNN
5.10朴素贝叶斯分类
第6章善用Spark
6.1合理分配资源
6.2控制并行度
6.3利用持久化
6.4选择恰当的算子
6.5利用共享变量
6.5.1累加器变量
6.5.2广播变量
6.6利用序列化技术
6.7关注数据本地性
6.8内存优化策略
6.9集成外部工具
参考文献
资源截图:
感谢您的支持,我会继续努力的!
1. 本站所有资源来源于用户上传和网络,因此不包含技术服务请大家谅解!如有侵权请邮件联系客服!17131833@qq.com 2. 本站不保证所提供下载的资源的准确性、安全性和完整性,资源仅供下载学习之用!如有链接无法下载、失效或广告,请联系客服处理,有奖励! 3. 您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容资源!如用于商业或者非法用途,与本站无关,一切后果请用户自负! 4. 如果您也有好的资源或教程,您可以投稿发布,成功分享后有站币奖励和额外收入!
源雷 云计算教程 Spark大数据处理_原理算法与实例 https://www.mubanke.com/58321.html
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如遇到加密压缩包,请使用WINRAR解压,如遇到无法解压的请联系管理员!
8. 精力有限,不少源码未能详细测试(解密),不能分辨部分源码是病毒还是误报,所以没有进行任何修改,大家使用前请进行甄别!
站长QQ:1754646538 站长邮箱:1754646538@qq.com