统一声明:
1.本站联系方式QQ:1754646538 TG:@UXWNET 如果有其他人通过本站链接联系您导致被骗,本站一律不负责! 2.需要付费搭建请联系站长QQ:1754646538 TG:@UXWNET 3.国外免备案服务器- 游侠云服务 4.免实名域名注册购买- 游侠云域名 5.免实名国外服务器购买- 游侠网云服务资源名称:Hadoop MapReduce实战手册
内容简介:
这是一本学习Hadoop MapReduce的一站式指南,完整介绍了Hadoop生态体系,包括Hadoop平台安装、部署、运维等,Hadoop生态系统成员Hive、Pig、HBase、Mahout等。最重要的是,书中包含丰富的示例和多样的实际应用场景,以一种简单而直接的方式呈现了90个实战攻略,并给出一步步的指导。本书从获取Hadoop并在集群中运行讲起,依次介绍了高级HDFS,高级Hadoop MapReduce管理,开发复杂的Hadoop MapReduce应用程序,Hadoop的生态系统,统计分析,搜索与索引,聚类、推荐和寻找关联,海量文本数据处理,云部署等内容。
资源目录:
第1章 搭建Hadoop并在集群中运行1
1.1 简介1
1.2 在你的机器上安装Hadoop2
1.3 写WordCountMapReduce示例程序,打包并使用独立的Hadoop运行它3
1.4 给WordCount MapReduce程序增加combiner步骤8
1.5 安装HDFS9
1.6 使用HDFS监控UI14
1.7 HDFS的基本命令行文件操作15
1.8 在分布式集群环境中设置Hadoop17
1.9 在分布式集群环境中运行WordCount程序22
1.10 使用MapReduce监控UI24
第2章 HDFS进阶26
2.1 简介26
2.2 HDFS基准测试27
2.3 添加一个新的DataNode28
2.4 DataNode下架30
2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况32
2.6 设置HDFS块大小33
2.7 设置文件冗余因子34
2.8 使用HDFS的Java API35
2.9 使用HDFS的C API(libhdfs)40
2.10 挂载HDFS(Fuse-DFS)45
2.11 在HDFS中合并文件48
第3章 高级Hadoop MapReduce运维49
3.1 简介49
3.2 调优集群部署的Hadoop配置49
3.3 运行基准测试来验证Hadoop的安装52
3.4 复用Java虚拟机以提高性能54
3.5 容错和推测执行54
3.6 调试脚本——分析任务失败55
3.7 设置失败百分比以及跳过不良记录59
3.8 共享用户的Hadoop集群——使用公平调度器和其他调度器61
3.9 Hadoop的安全性——整合使用Kerberos62
3.10 使用Hadoop的工具接口69
第4章 开发复杂的Hadoop MapReduce应用程序72
4.1 简介72
4.2 选择合适的Hadoop数据类型73
4.3 实现自定义的Hadoop Writable数据类型75
4.4 实现自定义Hadoop key类型79
4.5 从mapper中输出不同值类型的数据83
4.6 为输入数据格式选择合适的Hadoop InputFormat87
4.7 添加新的输入数据格式的支持——实现自定义的InputFormat90
4.8 格式化MapReduce计算的结果——使用Hadoop的OutputFormat94
4.9 Hadoop的中间(map到reduce)数据分区96
4.10 将共享资源传播和分发到MapReduce作业的任务中——Hadoop DistributedCache98
4.11 在Hadoop上使用传统应用程序——Hadoop Streaming103
4.12 添加MapReduce作业之间的依赖关系106
4.13 用于报告自定义指标的Hadoop计数器108
第5章 Hadoop生态系统110
5.1 简介110
5.2 安装HBase111
5.3 使用Java客户端API随机存取数据114
5.4 基于HBase(表输入/输出)运行MapReduce作业116
5.5 安装Pig120
5.6 运行第一条Pig命令121
5.7 使用Pig执行集合操作(join,union)与排序123
5.8 安装Hive125
5.9 使用Hive运行SQL风格的查询127
5.10 使用Hive执行join129
5.11 安装Mahout132
5.12 使用Mahout运行K-means133
5.13 可视化K-means结果136
第6章 分析138
6.1 简介138
6.2 使用MapReduce的简单分析139
6.3 使用MapReduce执行Group-By143
6.4 使用MapReduce计算频率分布和排序146
6.5 使用GNU Plot绘制Hadoop计算结果148
6.6 使用MapReduce计算直方图151
6.7 使用MapReduce计算散点图154
6.8 用Hadoop解析复杂的数据集158
6.9 使用MapReduce连接两个数据集164
第7章 搜索和索引170
7.1 简介170
7.2 使用Hadoop MapReduce生成倒排索引170
7.3 使用Apache Nutch构建域内网络爬虫175
7.4 使用Apache Solr索引和搜索网络文档180
7.5 配置Apache HBase作为Apache Nutch的后端数据存储182
7.6 在Hadoop集群上部署Apache HBase185
7.7 使用Hadoop/HBase集群构建Apache Nutch全网爬虫服务188
7.8 用于索引和搜索的ElasticSearch191
7.9 生成抓取网页的内链图193
第8章 聚类、推荐和关系发现197
8.1 简介197
8.2 基于内容的推荐198
8.3 层次聚类204
8.4 对亚马逊销售数据集进行聚类操作208
8.5 基于协同过滤的推荐212
8.6 使用朴素贝叶斯分类器的分类216
8.7 使用Adwords平衡算法给广告分配关键字222
第9章 海量文本数据处理231
9.1 简介231
9.2 使用Hadoop Streaming和Python预处理数据(抽取、清洗和格式转换)231
9.3 使用Hadoop Streaming进行数据去重235
9.4 使用importtsv和批量加载工具把大型数据集加载到Apache HBase数据存储中237
9.5 创建用于文本数据的TF向量和TF-IDF向量242
9.6 聚类文本数据246
9.7 使用隐含狄利克雷分布(LDA)发现主题249
9.8 使用Mahout的朴素贝叶斯分类器分类文件252
第10章 云端部署——在云上使用Hadoop255
10.1 简介255
10.2 使用亚马逊弹性MapReduce运行Hadoop MapReduce计算256
10.3 使用亚马逊EC2竞价实例来执行EMR作业流以节约开支259
10.4 使用EMR执行Pig脚本261
10.5 使用EMR执行Hive脚本263
10.6 使用命令行界面创建亚马逊EMR作业流267
10.7 使用EMR在亚马逊EC2云上部署Apache HBase集群270
10.8 使用EMR引导操作来配置亚马逊EMR作业的虚拟机275
10.9 使用Apache Whirr在云环境中部署Apache Hadoop集群277
10.10 使用Apache Whirr在云环境中部署Apache HBase集群281
资源截图:
感谢您的支持,我会继续努力的!
1. 本站所有资源来源于用户上传和网络,因此不包含技术服务请大家谅解!如有侵权请邮件联系客服!17131833@qq.com 2. 本站不保证所提供下载的资源的准确性、安全性和完整性,资源仅供下载学习之用!如有链接无法下载、失效或广告,请联系客服处理,有奖励! 3. 您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容资源!如用于商业或者非法用途,与本站无关,一切后果请用户自负! 4. 如果您也有好的资源或教程,您可以投稿发布,成功分享后有站币奖励和额外收入!
源雷 云计算教程 Hadoop MapReduce实战手册 https://www.mubanke.com/58300.html
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如遇到加密压缩包,请使用WINRAR解压,如遇到无法解压的请联系管理员!
8. 精力有限,不少源码未能详细测试(解密),不能分辨部分源码是病毒还是误报,所以没有进行任何修改,大家使用前请进行甄别!
站长QQ:1754646538 站长邮箱:1754646538@qq.com