当前位置:主页 > 技术文章 >

技术文章

Technical articles

6种数据分析实用方法,终于有人批注白了

时间:2022-08-04 05:28 点击次数:
  本文摘要:导读:在《终于有人把AI、BI、大数据、数据科学批注白了》中,我们讨论了分析以及相关的一些观点,如大数据和数据科学。现在我们将注意力转向分析中使用的实用方法,包罗种种分析工具。详细来说,在本文中,我将概述统计、时间序列分析、自然语言处置惩罚、机械学习和运筹学中的方法。

亚博yabo888vip官网

导读:在《终于有人把AI、BI、大数据、数据科学批注白了》中,我们讨论了分析以及相关的一些观点,如大数据和数据科学。现在我们将注意力转向分析中使用的实用方法,包罗种种分析工具。详细来说,在本文中,我将概述统计、时间序列分析、自然语言处置惩罚、机械学习和运筹学中的方法。

作者:格雷戈里·S. 纳尔逊(Gregory S. Nelson)泉源:华章科技01 应用统计与数学与前面许多已经讨论过的观点一样,人们如何界说统计以及统计与一般数学(mathematics)有何差别,存在着很大的差异。有些人认为统计是数学的一个分支(Merriam-Webster,2017b),而另一些人(如John Tukey(Brillinger,2002))则认为统计是一门独立的科学。大多数人认为,就像物理学也使用数学方法但不是数学一样,统计学使用数学但它并不是数学(Milley,2012)。统计涉及数据的收集、组织、分析、解释和展示。

如果使用这个广义的界说,它听起来和分析的观点很是像。然而,分析和数据科学都使用统计学的数量分析基础,但它们的关注规模比传统统计更广泛,而关于统计与其他学科之间的观点关系有几十个看法,我枚举了我所看到的这些观点之间的关系,如图1-3所示。▲图1-3 统计与其他定量学科之间的关系数学具有一定的绝对和可确定的性质,而数学的教学方式(至少在美国学校是如此)贯注了一种以确定性的方式来看待数量世界的思想。

也就是说,我们被教诲相信,所有的事实和事件都可以被解释清楚。可是,统计则把量化数据看成概率的或随机的。

也就是说,凭据事实可能会推导出普遍正确的结论(除了简朴的随机性),但必须认可,存在一些无法准确预测的随机概率漫衍或模式。拓展学习:想要学习更多的统计学历史及它如何改变科学,请阅读David Salsburg的书The Lady Tasting Tea。如图1-4所示,数学思维是演绎性的(即,它通过应用一般定律或原则来推断某一特定实例),而统计推理是归纳性的(即,它从详细实例中提炼出一般纪律)。

▲图1-4 归纳推理与演绎推理的比力这种差异在分析的情况下是很重要的,因为我们将归纳推理和演绎推理应用于分析解决差别的问题。因此,将数学和统计都应用到分析领域是适当的和须要的。如果开展分析是一种全面的计谋,那么统计和数学就是在众所周知的分析工具箱中资助我们实现该计谋的两个工具。线性计划(linear programming)可用于支持我们分析解决一类特定的优化问题。

例如,迪士尼公司在其数据科学类事情中使用线性、非线性、混淆整数和动态计划,来解决诸如优化餐厅座位摆设、淘汰公园之间搭车的等候时间、摆设事情人员(如演员)时间表等方面的问题。请注意,为了讨论的利便,我在这里不严格区分运筹学(operation research)、数学最优化(mathematical optimization)、决议科学(decision science)或精算科学(actuarial science)之间的区别,因为在我看来,它们都是我们分析工具箱中众多分析工具的组成部门而已,可以凭据思考息争决问题的需要而灵活使用。线性计划:线性计划是解决问题的一个数学方法,其输出是一个线性模型函数。

例如,我们可能想通过调治几个关键因素,好比外科手术的庞大度、需要医务人员的数量、可能泛起的并发症等,来优化抢救部门的效能。02 预测和时间序列在讨论支持分析的方法时,预测和时间序列往往被一起提及,并不是因为它们是同一种方法,而是因为它们都针对同一类问题,即基于历史信息对时间序列数据举行特征提炼和预测。预测和时间序列分析是指对时间序列数据举行分析、从数据中提炼有意义特征的方法。

亚博yabo888vip官网

许多时候,预测被形貌为通过历史数据对趋势举行判断,并通过可视化手段举行直观展现的方法,有些还提供了关于未来的预测。而时间序列分析差别于预测,虽然你需要时间序列数据来举行预测,但并非所有的时间序列分析都是用来举行预测的。例如,时间序列分析可用于在多个时间序列中发现模式或相似的特征,或执行统计历程控制。类似地,季节性的分析也可以用来识别模式。

时间序列分析接纳了多种方法,既有定量的,也有定性的。时间序列分析的目的是在历史数据(或时间序列数据)中找出一种模式,然后推测未来趋势。通常有四大类时间序列分析方法,如图1-5所示。

▲图1-5 预测和时间序列分析的方法一般而言,定量方法是最常见的预测方法。可是,当无法获得定量的历史数据时,或者广泛存在不确定性时,使用定性分析和决议分析方法也很普遍。

03 自然语言处置惩罚自然语言处置惩罚(Natural Language Process,NLP)是指通过盘算机来明白和生成“自然语言”的方法。当前,NLP是一个专注于人类语言和盘算机之间相互交互的研究领域,处于盘算机科学、人工智能和盘算语言学的交织领域。

文本挖掘和文天职析技术通常可以交换使用,既是NLP的前置运动也可以是NLP自己的应用。NLP的目的是明白盘算机文本中的自然语言,NLP用于文本的分类、提取和总结,我们在明白和技术方面的进步正迅速将NLP推向分析和其他许多领域应用的前沿。例如,在分析历程中,我们获取已往的形貌信息(如文本、文档、推文、演讲),并对它们举行语义分类或情绪明白。

情绪分析对于明白人们如何看待产物或服务特别有用。在医疗保健领域,情绪分析被用来权衡患者的情绪,以及识别那些有心力衰竭风险的患者。然后,这些文本摘要将作为分析历程的输入,用于预测建模、决议分析、搜索或回覆问题的机械人。

图1-6概述了这样一个自然语言处置惩罚的普遍历程。▲图1-6 自然语言处置惩罚历程示意图NLP的一个很是实际的应用是在市场营销领域,文本用于明白客户对某商品(通常指品牌或产物)的整体“情感”。这里的情感指的是如何明白客户的情绪并对情绪举行提炼与归类。除了情感分析,NLP还可以有多种应用,好比:语法检查实体提取翻译搜索尺度化回覆问题拓展学习:欲相识更多自然语言处置惩罚中使用的技术,请阅读Matthew Mayo的文章:https://www.kdnuggets.com/2017/02/natural-language-processing-key-terms-explained.html自然语言生成(Natural Language Generation,NLG)是人工智能和NLP研究的一个子集,它指自动从结构化数据中生成有意义的、可阅读的文本。

与NLP差别,NLG走的是另一条研究门路。也就是说,NLG以数据或其他形式的信息作为输入,以文本作为输出。NLG已经被广泛应用于种种谈天机械人,从客户服务(见Pathania和Guzma,Chatbots in Customer Service)到疾病症状诊断。

谈天机械人只是NLG的一种应用,其他应用还包罗自动化完成下列事项:把商业智能报表归纳成完整的分析陈诉(Qlik、Tableau、TIBCO、Microstrategy、Sisense、Information Builders都提供这类方法)自动建立财政报表并完身分析(Nanalyze软件提供此类功效)制作逐日体育资讯简报(StatsMonkey提供此类功效)自动体例客户服务代表的绩效评估(Narrative Science公司的Quill软件提供此类功效)在客户关系治理系统中自动建立CRM话术剧本,建议销售时机(Yseop的Savvy提供此类功效)为小企业提供智能的“财政分析师”整体解决方案(Arria公司的Recount软件提供此类功效)历史上,自然语言处置惩罚领域涉及规则的直接编码,以便处置惩罚语言本体,界说单词的结构,明白内容和上下文,以及它们在日常语言中的使用方式。统计盘算、盘算语言学和机械学习的现代进步正以前所未有的速度改变着NLP的世界。04 文本挖掘与文天职析一般来说,文天职析中最令人困惑的一个方面可能是NLP和文本挖掘之间的区别。就像在数据挖掘中所做的一样,我们试图从数据中提取有用的信息。

在文天职析情况下,数据恰好是文本,从中提取的信息包罗在文本数据中发现的模式和趋势。文本挖掘处置惩罚文本数据自己,我们试图回覆诸如词汇的频率、句子长度、某些文本字符串的存在或不存在等问题。我们可以解决概述的问题(例如,使用NLP中的技术举行分类)。本质上,文本挖掘通常是NLP的前奏。

文天职析涵盖的规模广泛,通常包罗应用统计分析、机械学习和其他一些高级分析技术,但通常被认为等同于文本挖掘。我以为这是个灰色地带。

注意,在商业智能领域人们经常使用文天职析这一术语,以表现更多的简朴行动可以通过典型的报表方式(例如词云、词频分析等),以一种自动和可视化的方式完成。文本挖掘一般是数据科学家喜欢使用的提法,他们虽然拥有许多更先进的方法,但那些在文本挖掘中需要做的计数、统计之类的基础事务也是他们庞大事情的一部门。我认为这切合我的看法,即分析是商业智能(BI)的一种自然进化。需要特别注意的是,差别的社区、差别的场景,会使用差别的术语,这在实际事情中可能会引起一些明白的混淆。

亚博yabo888vip官网

例如,参见:www.linguamatics.com/blog/are-terms-text-mining-and-text-analytics-largely-inter changeable05 机械学习美国最大的私营软件公司和分析巨头SAS公司将机械学习界说为:……一种自动建设分析模型的数据分析方法。机械学习使用数据迭代学习的算法,使盘算性能够在无须显式编程的情况下具有找到隐藏看法的洞察力。机械学习的焦点是使用算法来建设量化分析模型,资助盘算机模型从数据中“学习”。

它同以人为中心的处置惩罚历程差别,它是由盘算机学习和发现隐藏在数据中的模式,而不是由人去直接建设模型。一般而言,机械学习中模型建设和模型治理的观点是指能够连续而且重复开展后续的决议流程,而不是高度人工到场的经常基于统计手段的分析。随着近年来盘算能力的进步,机械学习可以用来自动地实现针对大数据的庞大数学盘算,而这在以前是不行能实现的。人类通常每周可以建设一到两个好的模型,而机械学习每周可以建立数千个模型。

——Thomas H.Davenpot,分析思想首脑(Davenport,2013年)图1-7概述了机械学习中的常见方法。▲图1-7 机械学习常用技术归纳拓展学习:要学习更多相关知识及机械学习中的其他术语,请会见谷歌开发者机械学习词汇表,网址为:developers.google.com/machine-learning/glossary/人们通常凭据盘算机的“学习模式”对机械学习算法举行分类(记着,机械学习就是让盘算机通太过析数据中的模式来提炼纪律),也就是说,针对同样的数据,可以有差别的机械学习算法来对真实世界(问题)建模。一般而言,有四种机械学习模式或者学习模型算法,它们的区别在于输入变量饰演的角色差别,以及如作甚训练模型准备数据。表1-1概述了差别机械学习算法的差异。

表1-1 机械学习模式06 数据挖掘数据挖掘:数据挖掘是在(通常是大型)数据集中发现息争释纪律模式,以解决业务问题的历程。在20世纪90年月末和21世纪初,数据挖掘作为一种分析大型数据库以生成新的或与众差别的信息的方法而被广泛应用。数据挖掘界的梦想是“找到干草堆中的一根针”。

数据挖掘与统计学差别的是,在数据探索之前,纷歧定有一个先验的理论驱动假说。先验:“先验”被界说为“从早期开始”,或者简朴地解释为“事先”。先验假设是在举行实验或收集数据之前陈述的假设。

数据挖掘接纳传统的统计方法以及人工智能和机械学习技术,目的是在我们拥有的数据中识别出以前未知的模式并举行预测。就像分析中接纳的其他技术一样,数据挖掘遵循这样一个生命周期:通常从问题形貌开始,然后对数据举行明白,再举行模型构建,并凭据效果接纳相应行动。一般情况下,数据挖掘人员识别出感兴趣的输出变量,然后使用种种技术对数据举行预处置惩罚(如聚类、主身分分析和关联规则学习),然后将这些输出变量作为输入应用到数据挖掘算法中,如回归算法、神经网络、决议树或支持向量机。数据挖掘历程中的一个关键部门是模型评估和确保我们不会过分拟合模型。

关于作者:格雷戈里·S. 纳尔逊(Gregory S. Nelson),ThotWave的首创人和CEO,是国际分析研究所(International Institute for Analytics)的专家,也是杜克大学福卡商学院(Fuqua School of Business)的特约教授。本文摘编自《数据分析即未来:企业全生命周期数据分析应用之道》,经出书方授权公布。延伸阅读《数据分析即未来》推荐语:融合了数据科学、设计思维和组织理论,全方位阐释如何高效告竣高水平企业级数据分析能力。


本文关键词:6种,数据分析,实用,方法,终于,有人,批注,白,亚博yabo888vip官网

本文来源:亚博yabo888vip官网-www.bbmled.cn

Copyright © 2009-2021 www.bbmled.cn. 亚博yabo888vip官网科技 版权所有 备案号:ICP备99896759号-1

在线客服 联系方式 二维码

服务热线

027-465984185

扫一扫,关注我们