博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
解决百度BMR的spark集群开启slaves结点的问题
阅读量:5171 次
发布时间:2019-06-13

本文共 2839 字,大约阅读时间需要 9 分钟。

前言

最近一直忙于和小伙伴倒腾着关于人工智能的比赛,一直都没有时间停下来更新更新我的博客。不过在这一个过程中,遇到了一些问题,我还是记录了下来,等到现在比较空闲了,于是一一整理出来写成博客。希望对于大家有帮助,如果在此有不对的地方,请大家指正,谢谢!


比赛遇到spark开启的问题

疑惑之处

在使用百度BMR的时候,出现了这样子一个比较困惑的地方。但百度那边帮我们初始化了集群之后,我们默认以为开启了spark集群了,于是就想也不想就开始跑我们的代码。可认真你就错了,发现它只是开启了local(即Master结点),其他的slaves结点并没有开启。于是我们不得不每一次都进入到Master的/opt/bmr/spark/conf/中去修改slaves文件,去把它里面最后的那个localhost删除,添加上slaves结点的hostname或者是IP。

原来的localhost:

1065122-20170813165008898-2050746950.png

改变成如下:

1065122-20170813165042648-1140485142.png

麻烦之处

最是麻烦的地方是,这个slaves文件,每次使用spark集群的时候都要去修改,非常不方便。在此吐槽一下百度BMR的不智能的地方。于是想,有木有好的办法可以让我们省去这样的麻烦呢?


使用脚本开启百度BMR的spark集群

观察Hadoop文件夹下的情况

在开启集群的时候,百度提供我们选择Hadoop的镜像版本,而这个Hadoop是必选的。前几篇博文里见到配置Hadoop的时候其实需要配置其他slaves的结点的。知道这个,就有点惊喜了,因为Hadoop下的slaves文件是长这样子的

1065122-20170813165146601-1298981583.png

1065122-20170813165204429-1332158809.png

观察spark文件夹下的情况

spark下的conf文件夹,一开始并没有slaves,我们需要从它的slaves.template拷贝过来

1065122-20170813165404054-1066132274.png

cp /opt/bmr/spark/conf/slaves.template /opt/bmr/spark/conf/slaves

使用脚本,拷贝slaves的hostname到spark下的slaves

我们需要做的是,获取Hadoop下slaves的slaves结点的hostname,进而拷贝到spark下的slaves文件的最后两行,拷贝之前,需要把spark的slaves的最后一行localhost给删除掉。那么有哪个shell指令可以帮我解决这个难题了?经过询问后台的大佬,以及晚上查阅,发现了sed这个指令可以帮助我们解决这个问题。

sed的介绍

取自http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2856901.html

[root@www ~]# sed [-nefr] [动作]选项与参数:-n :使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后,则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。-e :直接在命令列模式上进行 sed 的动作编辑;-f :直接将 sed 的动作写在一个文件内, -f filename 则可以运行 filename 内的 sed 动作;-r :sed 的动作支持的是延伸型正规表示法的语法。(默认是基础正规表示法语法)-i :直接修改读取的文件内容,而不是输出到终端。动作说明: [n1[,n2]]functionn1, n2 :不见得会存在,一般代表『选择进行动作的行数』,举例来说,如果我的动作是需要在 10 到 20 行之间进行的,则『 10,20[动作行为] 』function:a :新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)~c :取代, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行!d :删除,因为是删除啊,所以 d 后面通常不接任何咚咚;i :插入, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行);p :列印,亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行~s :取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正规表示法!例如 1,20s/old/new/g 就是啦!

使用sed写脚本

具体用到的有:

-i #因为信息我觉得不用输出到终端上d  #需要删除localhost

这是删除localhost的:

sed -i '/localhost/d' /opt/bmr/spark/conf/slaves

追加slaves的hostname到spark的slaves最后

for slaves_home in `cat /opt/bmr/hadoop/etc/hadoop/slaves`doecho $slaves_home >> /opt/bmr/spark/conf/slavesdone

最后spark下的slaves文件是这样子的

1065122-20170813165555695-726973667.png

完整的代码如下

echo "Starting dfs!"/opt/bmr/hadoop/sbin/start-dfs.shecho "*******************************************************************"echo "Starting copy!"cp /opt/bmr/spark/conf/slaves.template /opt/bmr/spark/conf/slavesecho "Copy finished!"echo "Writing!"sed -i '/localhost/d' /opt/bmr/spark/conf/slavesfor slaves_home in `cat /opt/bmr/hadoop/etc/hadoop/slaves`doecho $slaves_home >> /opt/bmr/spark/conf/slavesdoneecho "*******************************************************************"echo "Starting spark!"/opt/bmr/spark/sbin/start-all.shecho "*******************************************************************"echo "Watching the threads"jps

查看到Master进程已经开启了,就大功告成了!


结言

只要把上面的代码保存到一个.shell文件下。给它加上可运行的权限,然后就大功告成了。理论上,百度BMR的spark的路径都是一致的,因而都能通用,希望能减轻大家每次配置的烦恼。

文章出自,转载请标明出处!

转载于:https://www.cnblogs.com/kwongtai/p/7353964.html

你可能感兴趣的文章
[POJ3177]Redundant Paths
查看>>
文字和表单(checkbox/radio)元素垂直对齐方法,兼容Firefox和IE。
查看>>
课后阅读2
查看>>
ETL开发面试
查看>>
Spring静态资源解决方案
查看>>
MYSQL中的存储过程
查看>>
三、Oracle 游标、存储过程、存储函数、触发器
查看>>
7.28-说说对javaweb的感想吧
查看>>
[九省联考2018] 一双木棋 chess
查看>>
swiper控件(回调函数)
查看>>
Linux串口编程详解(转)
查看>>
.7-Vue源码之AST(3)
查看>>
checkbox:全选、全不选、单选(慕课网题目)
查看>>
supervisor 使用
查看>>
log4j的使用 && slf4j简单介绍
查看>>
只要是[运算] 就会提升数据类型
查看>>
PHP中使用cURL实现Get和Post请求的方法
查看>>
win10下JDK安装,配置环境变量后出现error:could not open '...jvm.cfg'
查看>>
Leetcode 508. Most Frequent Subtree Sum
查看>>
单机配置tomcat 8 集群
查看>>