完整的机器学习项目主要步骤:
1、明确问题
首先要划定问题:监督或者非监督,还是强化学习?这是个分类任务、回归任务还是其他的?
2、获取数据
机器学习结果的上限由数据决定,而算法只是尽可能地接近这个上限。数据要有代表性。
涉及到numpy、pandas
3、特征预处理与特征选择
良好的数据要能够提取良好的特征才能真正发挥数据的效力。特征预处理、数据清洗是很关键的步骤,往往能够使算法的效果和性能得到显著提升,归一化、离散化、因子化、缺失值处理等数据处理手段。
特征选择筛选出显著特征、摒弃非显著特征。
4、训练模型与调优
用到了sklearn、numpy、pandas
5、完成模型