红足一1世66814 红足一1世66814 红足一1世66814

6种实用的数据分析方法,终于有人解释了

分析时间序列数据方法_数据分析预测方法_3d预测分析 今日3d专家预测号码

01 应用统计与数学

与上面已经讨论过的许多概念一样,人们如何定义统计数据以及统计数据与一般数学的不同之处存在很大差异。

一些人将统计学视为数学的一个分支(Merriam-Webster,2017b),而其他人(如 John Tukey(Brillinger,2002))将统计学视为一门独立的科学。大多数人认为,就像物理学使用数学而不是数学一样,统计学使用数学而不是数学(Milley,2012)。

统计涉及数据的收集、组织、分析、解释和呈现。使用这个广泛的定义,它听起来与分析的概念非常相似。然而,分析学和数据科学都使用统计学的定量基础,但它们的关注点比传统统计学更广,关于统计学与其他学科的概念关系有几十种观点,我将列出我所看到的这些概念之间的关系如图 1-3 所示。

数据分析预测方法_3d预测分析 今日3d专家预测号码_分析时间序列数据方法

▲图 1-3 统计学与其他量化学科的关系

数学具有一定的绝对性和可确定性,数学的教学方式(至少在美国学校)灌输了一种确定性的看待数字世界的方式。也就是说,我们被教导要相信所有的事实和事件都是可以解释的。

然而,统计数据将定量数据视为概率或随机数据。也就是说,通常正确的结论可能来自事实(除了简单的随机性),但必须承认存在一些无法准确预测的随机概率分布或模式。

如图 1-4 所示,数学思维是演绎的(即,它通过应用一般规律或原则来推断特定实例),而统计推理是归纳的(即,它提炼一般规律)。

分析时间序列数据方法_3d预测分析 今日3d专家预测号码_数据分析预测方法

▲图1-4 归纳推理与演绎推理对比

这种差异在分析的上下文中很重要,因为我们将归纳和演绎推理应用于不同问题的分析解决方案。因此,将数学和统计学同时应用到分析领域是适当和必要的。如果进行分析是一项综合策略,那么统计和数学是众所周知的分析工具箱中的两个工具,可以帮助我们实施该策略。

线性规划可用于支持我们对特定类别优化问题的分析解决方案。例如,华特迪士尼公司在其数据科学工作中使用线性、非线性、混合整数和动态规划来解决诸如优化餐厅座位安排、减少公园之间的乘车等待时间、调度工作人员(例如演员)和其他问题。问题。

注意,为了讨论方便,我这里没有严格区分运筹学、数学优化、决策科学、精算学,因为在我的分析工具箱中,它们似乎只是众多分析工具的一部分,可以根据思考和解决问题的需要灵活运用。

02 预测和时间序列

在讨论支持分析的方法时,经常将预测和时间序列放在一起提到,并不是因为它们是同一种方法,而是因为它们都解决了同一类型的问题,即基于历史信息的时间序列数据的特征提取和预测。

预测和时间序列分析是指分析时间序列数据并从数据中提取有意义的特征的方法。在很多情况下,预测被描述为一种通过历史数据判断趋势并通过视觉手段将其可视化的方法,有些还提供对未来的预测。

虽然时间序列分析与预测不同,虽然您需要时间序列数据进行预测,但并非所有时间序列分析都用于预测。例如,时间序列分析可用于发现多个时间序列中的模式或相似特征,或执行统计过程控制。同样,季节性分析也可用于识别模式。

时间序列分析使用多种方法,包括定量和定性。时间序列分析的目的是在历史数据(或时间序列数据)中找到一种模式,然后推断出未来的趋势。时间序列分析方法一般有四大类,如图1-5所示。

3d预测分析 今日3d专家预测号码_数据分析预测方法_分析时间序列数据方法

▲图1-5 预测方法和时间序列分析

一般来说,定量方法是最常见的预测方法。然而,当定量历史数据不可用或不确定性普遍存在时,使用定性和决策分析方法也很常见。

03 自然语言处理

自然语言处理(NLP)是指通过计算机理解和生成“自然语言”的方法。

目前,NLP 是一个专注于人类语言与计算机交互的研究领域,处于计算机科学、人工智能和计算语言学的交叉领域。文本挖掘和文本分析技术通常可以互换使用,既作为 NLP 的前身,也作为 NLP 本身的应用。

NLP 的目标是理解计算机文本中的自然语言。NLP 用于文本的分类、提取和摘要。我们在理解和技术方面的进步正在迅速将 NLP 推向分析和许多其他领域的应用前沿。例如,在分析过程中,我们获取过去的描述性信息(如文本、文档、推文、演讲)并对它们进行语义分类或情感理解。

情绪分析对于了解人们如何看待产品或服务特别有用。在医疗保健领域,情绪分析用于测量患者情绪并识别有心力衰竭风险的患者。然后,这些文本摘要将作为预测建模、决策分析、搜索或问答机器人的分析过程的输入。

图 1-6 概述了这样一个自然语言处理的一般过程。

分析时间序列数据方法_3d预测分析 今日3d专家预测号码_数据分析预测方法

▲图1-6 自然语言处理流程示意图

NLP 的一个非常实际的应用是在营销领域,其中文本用于了解客户对某个项目(通常是品牌或产品)的整体“情绪”。这里的情绪是指如何理解客户的情绪,并对其进行提炼和分类。除了情感分析,NLP 还可以有多种应用,例如:

自然语言生成 (NLG) 是人工智能和 NLP 研究的一个子集,是指从结构化数据中自动生成有意义、可读的文本。与 NLP 不同数据分析预测方法,NLG 走的是另一条研究路径。

也就是说,NLG 以数据或其他形式的信息为输入,以文本为输出。

NLG 已用于各种聊天机器人,从客户服务(参见 Pathania 和 Guzma,客户服务中的聊天机器人)到疾病症状诊断。聊天机器人只是 NLG 的一种应用程序,其他应用程序包括以下自动化:

从历史上看,自然语言处理领域涉及对规则的直接编码,以处理语言本体、定义单词结构、理解内容和上下文以及它们在日常语言中的使用方式。统计计算、计算语言学和机器学习的现代进步正在以前所未有的速度改变 NLP 的世界。

04 文本挖掘与文本分析

一般来说,文本分析最令人困惑的方面之一可能是 NLP 和文本挖掘之间的区别。就像在数据挖掘中一样,我们尝试从数据中提取有用的信息。在文本分析的情况下,数据恰好是文本,从中提取的信息包括在文本数据中发现的模式和趋势。

文本挖掘处理文本数据本身,我们尝试回答诸如单词频率、句子长度、某些文本字符串的存在或不存在等问题。我们可以解决概述的问题(例如使用 NLP 中的技术进行分类) )。本质上,文本挖掘通常是 NLP 的先驱。

文本分析涵盖范围广泛,通常包括应用统计分析、机器学习和其他一些高级分析技术,但通常被认为等同于文本挖掘。我认为这是一个灰色地带。

请注意,术语文本分析通常用于商业智能,表示可以通过典型的报告方式(例如词云、词频分析等)以自动化和可视化的方式完成更简单的操作。

文本挖掘通常是数据科学家喜欢使用的术语。虽然他们有很多更高级的方法,但文本挖掘中需要做的计数和统计等基本的事情也是他们复杂工作的一部分。我认为这符合我的观点数据分析预测方法,即分析是商业智能 (BI) 的自然演变。

需要注意的是,不同的社区、不同的场景会使用不同的术语,在实际工作中可能会造成一些混淆。例如,请参阅:

多变

05 机器学习

美国最大的私营软件公司和分析巨头 SAS Corporation 将机器学习定义为:

... 一种自动构建分析模型的数据分析方法。机器学习使用从数据中迭代学习的算法,使计算机无需显式编程即可找到隐藏的洞察力。

机器学习的核心是使用算法构建定量分析模型,帮助计算机模型从数据中“学习”。它不同于以人为中心的处理,因为计算机学习和发现隐藏在数据中的模式,而不是人类直接构建模型。

一般来说,机器学习中的模型构建和模型管理的概念是指继续和重复后续决策过程的能力,而不是高度人工参与的、通常基于统计的分析。

随着计算能力的最新进展,机器学习可用于自动化大数据上的复杂数学计算,这在以前是不可能的。

人类通常每周可以构建一两个好的模型,而机器学习每周可以创建数千个模型。

——Thomas H. Davenpot,分析思想领袖(达文波特,2013 年)

图 1-7 概述了机器学习中的常用方法。

3d预测分析 今日3d专家预测号码_数据分析预测方法_分析时间序列数据方法

▲图1-7 机器学习常用技术总结

人们通常根据计算机的“学习模式”对机器学习算法进行分类(记住,机器学习就是让计算机通过分析数据中的模式来提取模式),即对于相同的数据,可以有不同的机器学习算法来模拟现实世界(问题)。

一般来说,有四种机器学习模式或学习模型算法,它们在输入变量所扮演的角色以及如何为训练模型准备数据方面有所不同。

表 1-1 总结了不同机器学习算法之间的差异。

▼表1-1机器学习模式

分析时间序列数据方法_3d预测分析 今日3d专家预测号码_数据分析预测方法

06 数据挖掘

在 1990 年代末和 2000 年代初,数据挖掘被广泛用作分析大型数据库以生成新的或独特的信息的方法。数据挖掘界的梦想是“大海捞针”。数据挖掘与统计的不同之处在于,在数据探索之前不一定有先验理论驱动的假设。

数据挖掘使用传统的统计方法以及人工智能和机器学习技术来识别以前未知的模式并在我们拥有的数据中做出预测。

与分析中使用的其他技术一样,数据挖掘遵循一个生命周期,该生命周期通常从问题描述开始,然后是对数据的理解、模型构建和基于结果的操作。

通常,数据挖掘者识别感兴趣的输出变量,然后使用各种技术对数据进行预处理(如聚类、主成分分析和关联规则学习),然后将这些输出变量作为输入应用于数据挖掘算法,如回归算法,神经网络、决策树或支持向量机。

数据挖掘过程的一个关键部分是模型评估并确保我们不会过度拟合模型。

关于作者:Gregory S. Nelson,ThotWave 创始人兼 CEO,国际分析研究所专家和杜克大学商学院 Fuqua 商学院)特聘教授。

本文节选自《数据分析是未来:数据分析在企业生命周期中的应用》,经出版社授权发布。