大数据的属性是什么?怎么划分?有大数据是令人兴奋的,但在实践中处理大数据存在一定的困难。如果数据量太大,就会变得更加困难。为了处理大数据,使用了高性能的算法,这些算法也表现出了惊人的优势。数据通常由矩阵表示,其中行代表不同的项目或记录,列代表这些项目的不同属性。例如,在美国的一个城市数据集中,每一行代表一个城市,每一列代表州、人口和地区等特征。
大数据的属性是什么?
一、结构化和非结构化数据
一些数据集结构良好,例如数据库中的表格或电子表格程序。其他数据以更多样化的形式记录有关世界状况的信息。它们可能是带有图像和超链接的文本语料库,如维基百科,或者是出现在个人医疗记录中的注释和测试结果的复杂组合。
数据通常由矩阵表示,其中行代表不同的项目或记录,列代表这些项目的不同属性。例如,在美国的一个城市数据集中,每一行代表一个城市,每一列代表州、人口和地区等特征。
面对非结构化数据源时,我们通常会从构造一个矩阵开始,对数据进行结构化。词袋模型可以构造一个矩阵,每条推文对应矩阵中的一行,每个常用词对应矩阵中的一列。矩阵条目 M[i, j] 表示推文 i 中单词 j 的出现次数。
二、定量数据与分类数据
定量数据由身高、体重等数值组成。这些数据可以直接带入代数公式和数学模型,或用传统图表表示。相比之下,分类数据由描述受访者属性的标签组成,例如性别、头发颜色和职业。这种描述性信息可以像数字数据一样精确和有意义,但不能以相同的方式处理。
分类数据通常可以进行数字编码。例如,性别可以表示为男性=0 或女性=1。但是如果每个特征包含两个以上的字符,事情就会变得更加复杂,尤其是当它们之间没有隐含的顺序时。我们可以对头发的颜色进行数字编码,即为不同的颜色匹配不同的值,比如灰发=0、红发=1,金发=2。但是,除了纯粹用于特征识别之外,我们不能真正将这些值视为数字。讨论最大或最小头发颜色有什么意义?以及如何解释我的头发颜色减去你的头发颜色的含义?
三、大数据与小数据
在大众眼中,数据科学与大数据相混淆,大数据分析计算机日志和传感器设备生成的海量数据集。原则上,数据多总比数据少好,因为如果有必要,可以通过抽样丢弃其中的一部分,从而产生更小的数据集。
拥有大数据令人兴奋。但在实践中,处理大数据存在一定的困难。一般来说,一旦数据量变得太大,事情就会变得更加困难。大数据挑战包括:
一个分析周期所花费的时间随着数据的大小而增长:随着数据大小的增加,对数据集的计算操作花费的时间更长。电子表格可以提供即时响应,允许用户进行实验测试并验证各种假设。但是在计算大型电子表格时,它变得笨重且缓慢。处理大型数据集可能需要数小时或数天才能获得结果。为了处理大数据,必须使用高性能的算法,而这些算法也表现出了惊人的优势。但切勿将大数据拆分为小数据以加快计算速度。
大型数据集的复杂可视化:在计算机屏幕或打印图像上绘制大数据中的所有数百万个点是不可能的,更不用说对数据进行概念性理解了。我们不能希望深入了解根本看不到的东西。
简单的模型不需要大量数据来拟合或评估:典型的数据科学任务是根据一小组变量做出决策,例如年龄、性别、身高、体重和现有的医疗水平,以决定是否保险 人们提供人寿保险。
如果有 100 万人的生活相关数据,应该可以建立一个保险覆盖率好的通用模型。但当数据量扩大到千万人时,可能就不再起到优化模型的作用了。基于一些变量(例如年龄和婚姻状况)的决策标准在涵盖大量投保人数据时不能过于复杂并且显得稳健。不易被发现的发现,无论数据量大小,都需要熟练地获取大量数据。
大数据有时被称为坏数据。它们是作为现有系统或程序的副产品收集的,并不是为了回答我们手头设计的问题。这使得我们有可能仅仅因为我们有数据就不得不努力解释一些现象。
总统候选人如何从分析选民偏好中受益?大数据方法可能会分析 Twitter 或 Facebook 上的大量网络数据,并从文本中推断选民的意见。另一方面,小数据方法涉及民意调查,向数百人询问特定问题并将结果制成表格。哪种方法更准确?正确的数据集与要完成的任务直接相关,不一定是数量最多的数据集。
以上是大数据的属性是什么以及如何划分的相关要少,小编建议不要盲目地渴望分析大型数据集。寻找正确的数据来回答给定的问题,而不是做不需要参与的“大事”。更多关于“大数据培训”的问题,欢迎咨询千锋教育在线名师。千锋教育多年办学,课程大纲紧跟企业需求,更科学更严谨,每年培养泛IT人才近2万人。不论你是零基础还是想提升,都可以找到适合的班型,千锋教育随时欢迎你来试听。