Hadoop是一个开源的分布式计算框架,用于处理大规模数据集。以下是Hadoop安装与配置的步骤:
1. 下载Hadoop:从官方网站(https://hadoop.apache.org/releases.html)下载最新版本的Hadoop。
2. 解压文件:将下载的文件解压缩到一个目录中。
3. 配置环境变量:编辑/etc/profile文件,添加以下内容:
export HADOOP_HOME=/path/to/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
4. 测试环境变量:运行以下命令检查环境变量是否正确设置:
echo $HADOOP_HOME
echo $PATH
5. 启动Hadoop:运行以下命令启动Hadoop:
start-all.sh
6. 测试Hadoop:运行以下命令测试Hadoop是否正常工作:
hadoop fs -ls /path/to/directory
7. 配置Hadoop:编辑hdfs-site.xml文件,添加以下内容:
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>10240</value> (或更大的值)
</property>
10240 (或更大的值)
```
8. 配置MapReduce:编辑mapred-site.xml文件,添加以下内容:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.job.tracker</name>
<value>localhost:8012</value> (或您的Tracker IP地址)
</property>
<property>
<name>mapreduce.job.history.location</name>
<value>file:///path/to/history/dir</value> (可选)
</property>
9. 保存配置文件:保存所有修改后的文件。
10. 测试MapReduce:运行以下命令测试MapReduce是否正常工作:
start-mapred.sh /path/to/input/file /path/to/output/dir/