手把手教你使用Python绘制时间序列数据图表！

　　本文在Python中用箱线图、傅里叶变换、熵、自相关和 PCA 分析时间序列数据。数据可视化是任何数据相关项目中最重要的阶段之一。根据数据可视化的对象，有：

　　1.数据可视化报告结果。

　　2.数据可视化来分析数据，换句话说，数据科学家内部使用的可视化来提取有关数据的信息，然后实施模型。

　　本文主要关注后一种，因为它解释了一些有助于分析时间序列数据的方法。

　　什么是时间序列?

　　基本数值时间序列是有序的、带时间戳的观测值(测量值)的集合，其中每个观测值都是从同一测量过程中获得的数值标量。

　　什么是时间戳?

　　在我们将“时间”捕获为数据点之前，我们不会深入探讨需要精确定义的许多细节(准确性、格式、日历约定、时区等等)。我们将时间戳定义为具有所需精度的时间点的表示就足够了。例如，这可能是根据某个日历的日期约定(例如“08-06-2020”)，或者自 1970 年以来以整数表示的毫秒数(这实际上是 UNIX 纪元约定!)

　　Python类库

　　首先，这些是与 notebook 一起使用的库。大多数代码都围绕 NumPy 和 Pandas库，因为数据主要以 Pandas Dataframe 表现的 NumPy 数组。

用Python绘制时间序列数据图表1

　　导入文件

　　下载数据后，运行以下代码将其导入。

用Python绘制时间序列数据图表2

用Python绘制时间序列数据图表3

　　正如所观察到的，数据包含六个传感器的传感器数据、每个数据点的日期时间以及机器状态。这是“BROKEN”、“NORMAL”或“RECOVERING”，但为了简化可视化，它被分组如下：

用Python绘制时间序列数据图表4

　　在任何编程语言中使用日期时间总是具有挑战性的，Python 也不例外。尽管处理日期时间有多种方法，但这里使用函数 pandas.to_datetime 将 datetime 列(读取为字符串)转换为时间戳。

用Python绘制时间序列数据图表5

　　数据预处理

　　在进行可视化之前，分析了本次数据的重复值和缺失值。并且删除重复项的函数：

用Python绘制时间序列数据图表6

　　填充缺失值的函数：

用Python绘制时间序列数据图表7

　　这是预处理阶段的整个管道。此外，数据分为输入数据和输出数据。

用Python绘制时间序列数据图表8

　　输入形状：(10081, 7)

　　输出形状：(10081, 2)

用Python绘制时间序列数据图表9

用Python绘制时间序列数据图表10

　　数据可视化

　　现在，准备开始数据可视化。这是传感器数据和异常情况的图。完整代码可以在公众号:机器学习研习院后台回复时间序列可视化获取.

用Python绘制时间序列数据图表11

　　均值和标准

　　可以更好地总结数据随时间变化的行为的最基本图之一是均值标准图，我们在其中显示按时间范围分组的均值和标准差。这主要有助于分析指定时间范围内的基线和噪声。

用Python绘制时间序列数据图表12

　　箱形图

　　另一个有趣的图表是通过箱线图显示的。箱线图是一种通过四分位数以图形方式显示数值数据的局部性、扩散性和偏度组的方法。有两个主要框表示从第25个百分位数到第75个百分位数的数据，两者之间用分布的中位数隔开。除了盒子之外，还有从盒子延伸出来的晶须，表明上四分位和下四分位之外的变异性。与数据集其他部分显著不同的异常值也被绘制为箱线图上须之外的单独点。

　　这一个类似于平均和标准图，因为它表明数据的平稳性。但是，它也可以显示异常值，这有助于从视觉上检测异常和数据之间的任何关系。

用Python绘制时间序列数据图表13