1. split是逻辑分片,再mapTask任务开始前,将文件按照指定的大小进行逻辑切分。每一个部分称之为一个split。
默认情况下,split的大小与block的大小相等。均为128M.
2. 可以参考FileInputForamt类的getSplits()源码
1. 会先获取三个参数的值,minSize,maxSize,blockSize
2. 然后创建一个分片集合用于存储分片数据
3. 获取文件的所有块信息,进行遍历
4. 得到一个块的状态信息,然后判断是否可以切分
5. 然后根据三个参数获取分片大小
6. 循环判断文件剩余部分是否大于切片大小的1.1倍,
1. 大于的话就调用makeSplit方法创建当前块的逻辑分片
2. 不大于的话,就将文件剩余的部分创建一个唯一的最后一个分片。
7. 将每一个逻辑分片添加到分片集合中,等待被使用
3. 分片的大小由minSize,maxSize,blockSize
三个参数决定 算法如下: Math.max(minSize,Math.min(maxSize, blockSize)),其中maxSize是取得longValueMax的值
1. 如果blockSize小于maxSize && blockSize 大于 minSize之间,那么split就是blockSize;
2. 如果blockSize小于maxSize && blockSize小于minSize之间,那么split就是minSize;
3. 如果blockSize大于maxSize && maxSize大于minSize之间,那么split就是maxSize;
4. 如果blockSize大于maxSize && maxSize小于 minSize之间,那么split就是maxSize(不存在这种关系)。