千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

当前位置:首页  >  应聘面试  >  大数据面试题  > “未知”的数据对数据分析和可视化有什么影响?好处和坏处是什么?

“未知”的数据对数据分析和可视化有什么影响?好处和坏处是什么?

来源:千锋教育
发布人:wjy
时间: 2022-09-02 15:32:06 1662103926

“未知”的数据对数据分析和可视化有什么影响?好处和坏处是什么?

补充:为什么会出现未知的数据? 首先是先弄清楚为什么会产生未知的数据?弄清楚原因之后才能更好地对症下药。

未知数据产生的原因是多种多样的,其中可能是: 

“未知”的数据对数据分析和可视化有什么影响?好处和坏处是什么?

- 1、数据的采集问题: - 数据在采集到的时候就是未知的,如性别保密、生日保密等; - 数据在采集的时候缺少了采集的字段; 

- 2、数据的加工问题: 在数据中间层进行加工的时候,由于考虑不周全或者特殊场景要求,在对数据进行清洗的过程中出现了数据同类合并、信息丢失的现象,如广州、深圳、四川、上海四个地区的用户中,可能会将广州、深圳合为广东,将四川、上海都并入其他; 也有可能将四川并入其他(广州、深圳、上海都是城市),这是数据在清洗的过程中出现的信息损耗,这种情况也很容易出现未知数据(因为不知道这个”其他“究竟是指哪些地区); 

- 3、数据的可视化问题: 当数据在进行可视化操作的时候,可能会为了突出某一个字段而将其他字段都并入了其他。

其次是“未知”数据对数据分析和数据可视化会有什么样的影响?任何事物的存在都有其利与弊,所以对于这个问题我也是从辩证的角度来对它进行一个整理与总结:

好处: 

- 1、保障了数据的完整性。数据分析应该建立在数据的完整性、及时性与准确性上面,隐藏了未知数据或许可以给工作带来一些小方便,但是如果数据本身是残缺的,那么分析出来的结果也是值得怀疑的,毕竟缺少了数据的完整性就更别提数据的准确性了,而数据不准确的数据分析结果还可靠吗? 

- 2、使数据分析结果更具有说服力。 其实也是完整性的一个拓展,在数据分析的过程中如果出现了问题,至少可以知道应该从哪一方面去入手解决这个问题,进而可以增加数据分析的维度,使分析报告的展示更加地饱满。

- 3、在数据的可视化展示中,可以减少一些维度,突出重点。

“未知”数据有时候是其他数据的合并,在数据进行可视化的时候,为了突出某一方面的重要性或者占比,我们可能会将其他数据都合并为“其他”,这是造成未知数据的一个原因之一,而这也是“未知”数据在数据可视化方面所体现出来的优点。

坏处: 

- 1、增加了数据分析的难度。 未知数据如果只是一小部分的话就还好,但是如果未知数据达到了一个量级且无法对其进行解释,那么在进行数据分析的时候就很难进行下去了。 

未知数据太多了,数据就会失去参考价值,进而容易加大数据分析的难度; 

- 2、数据的可读性下降。 如果无法解决未知数据所包含的信息有哪些这个问题,就很容易导致数据的可读性下降。 

比如说,用户的性别中男性、女性跟未知的占比,如果未知的占比过大,我们很难在结果中说明用户主要是男性居多还是女性居多。 这种情况下,由于未知数据隐藏了较多的信息,会直接导致数据的可读性严重下降。

tags:
声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。
10年以上业内强师集结,手把手带你蜕变精英
请您保持通讯畅通,专属学习老师24小时内将与您1V1沟通
免费领取
今日已有369人领取成功
刘同学 138****2860 刚刚成功领取
王同学 131****2015 刚刚成功领取
张同学 133****4652 刚刚成功领取
李同学 135****8607 刚刚成功领取
杨同学 132****5667 刚刚成功领取
岳同学 134****6652 刚刚成功领取
梁同学 157****2950 刚刚成功领取
刘同学 189****1015 刚刚成功领取
张同学 155****4678 刚刚成功领取
邹同学 139****2907 刚刚成功领取
董同学 138****2867 刚刚成功领取
周同学 136****3602 刚刚成功领取
相关推荐HOT