优点:
1. 在当前的很多数据集上,相对其他算法有着很大的优势,表现良好。
2. 它能够处理很高维度(feature很多)的数据,并且不用做特征选择(因为特征子集是随机选择的)。
3. 在训练完后,它能够给出哪些feature比较重要。
4. 训练速度快,容易做成并行化方法(训练时树与树之间是相互独立的)。
5. 在训练过程中,能够检测到feature间的互相影响。
6. 对于不平衡的数据集来说,它可以平衡误差。
7. 如果有很大一部分的特征遗失,仍可以维持准确度。
缺点:
1. 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合。
2. 对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。