像数据科学家一样思考
如果你认为数据科学家的工作就是写代码,那你就错了。在我看来,这是这个角色中最不重要的部分之一。
大多数人一听到数据科学家这个角色,就会立刻想到一个人在笔记本电脑前工作数小时,运行代码,评估数字,生成看起来令人印象深刻但难以解读的可视化图表。这一切听起来都很技术化,也有点复杂。
但这只是事实的一半。
数据科学家真正的工作是思考的部分。是他们在使用任何工具之前看待问题的方式。是他们会问的问题,以及他们停下来思考的耐心。
猜怎么着?你今天就可以开始做这一切。为此你不需要写代码。重要的是你方法的转变。
1、从一个问题开始
当任务是分析数据时,我们大多数人更关注工具而不是问题本身。通常的流程是打开电子表格、安装库,或者直接开始构建仪表板。人们有一种信念,认为工具就是起点。
但重要的是我们要有不同的思考方式。数据科学家从一个问题开始。
问题必须是具体的。不要提出笼统的问题,比如"我们的数据说明了什么?"你需要更具体的东西,比如为什么我们的销售额在三月下降了。另一个问题可以是,哪些客户今年最有可能离开我们的平台?
这些是精准而具体的问题,会带来更好的结果。你需要花时间决定你在寻找什么。每次你查看一个具体的数值时,你都需要问自己:我想要回答什么问题?这个数值能帮我回答我的问题吗?
老实说,这听起来很简单。但我们大多数人忽略了这个部分。养成从一个清晰问题开始的习惯,抵制在一开始就使用工具的冲动。这往往会给你一个强有力的先发优势。
2、把大问题拆解为小问题
第一步是确定一个问题。下一步是将问题分解为小问题。你需要暂停一下,理解直接攻击一个大问题是困难的。但解决小问题更容易。这也被称为分解。
例如,假设我们的问题是 为什么用户在离开我们的平台?如果你观察,这是一个非常大的问题。这是一个需要解决的大问题。但我们的方法应该是这样拆解:*他们是立刻离开还是几个月后离开?他们留下了什么评价?离开的人之间有什么共同点吗?
这些更小的问题是可以回答的。一旦你逐一回答了它们,更大的问题就开始自己回答自己了。
你不需要为此编写代码。你需要的是一支笔、一些思考的空间,以及获得对问题清晰认识的耐心。
3、开始在日常生活中观察模式
数据科学家的核心技能是识别模式。这更像是一种我们在日常生活中就可以拥有的思维方式。
当你环顾四周,你可能会注意到一些规律性发生的事情。
为什么咖啡店在早上8点繁忙而在10点安静?为什么人们在某些街道上走得很慢?为什么你的手机在使用某些应用时耗电更快?
我知道这些问题不需要什么深刻的洞察力,但关键在于提出它们的习惯。**环顾四周、理解模式是什么以及它为什么存在的习惯。**这正是数据科学家所做的事情。
4、质疑数据
这一部分将谨慎的思考者与其他人区分开来。数据科学家会查看数据,但从不盲目信任它。
验证数据来源很重要。在数据收集的每一个步骤中,都可能出问题。信息可能缺失,有些人可能被遗漏,提问的方式也会影响答案。
例如,让我们想想一个客户满意度调查。如果你只把调查发给购买过商品的人,你就已经在影响调查了。数据可能告诉你90%的客户是满意的。但你遗漏了那些最终什么都没买的人。
显然我们从给定数据中识别模式,但在盲目信任之前,你需要验证来源并确保数据没有偏差。
这些小问题可以为你节省大量时间。
一旦确认了要使用的数据,你必须基于数据而非意见做出决策。我看到的是,当团队面临问题时,多数人的意见往往会获胜。当大多数人认为选项A是正确的方法时,决策就仅凭那个意见做出了。
核心思想是,当有人提出主张时——包括你自己——始终在数据中寻找证据。
5、保持简单
总是有一种从最复杂方法开始的诱惑。
但作为数据科学家,抵制这一点至关重要,应该 从最简单的方法开始。如果三月销售额下降了,先检查显而易见的事情,比如是否有一个假期。竞争对手是否进行了促销?网站是否宕机了?现有产品是否有变化?
是的,复杂模型和高级分析是有用的,但只有在简单方法之后。有时候人们花了数周时间跳入复杂解决方案,结果发现答案一直就在一份基本报告中。
简单且正确胜过复杂且令人印象深刻。
6、用任何人都能理解的方式解释
我们到了最后一章,这可能是棘手的部分。这一部分讲的是沟通。
无论你的分析多么准确,如果做决策的人无法理解你发现了什么,那就毫无用处。我们不仅是在寻找正确答案,还要确保它能帮助他人。
关键在于将数字翻译成简单的语言。你不必说B群组的流失率增加了23%之类的话。相反,你可以说大约每四个新客户中就有一个在30天后停止使用我们的应用。
含义相同,但更容易理解,也产生更好的影响。
7、一个真实案例
让我们提一个问题。问题可以是 为什么我们的销售额在下降?
那么在真实场景中会发生什么?想象你是一位产品经理,你需要弄清楚为什么这个月销售额下降了。
一个非数据思维的人可能会立刻让工程团队通过分析一些报告来解决这个问题,然后盯着那些巨大的数字希望找到答案。
但本指南一直讲的是如何像数据科学家一样思考。所以让我们看看数据思维者是如何处理的。
让我们更具体地明确这个问题。销售额下降了太笼统了。你必须问,销售额下降了是与什么相比? 上个季度?去年?只在某些地区?你必须缩小问题范围。问题最终会变成这样:与去年第四季度相比,第一季度新客户的收入下降了18%。
现在你进一步拆解。这是所有地区都是如此吗?网站流量下降了吗?竞争对手是否进行了促销?定价或产品是否有变化?
现在是时候质疑数据了。比较是否公平?第一季度是否有更多假期?收入是正确的指标吗,还是你应该看销售数量?
最初,你先寻找简单的解释。也许是销售团队在休假。也许是第四季度进行了一次重要的促销但第一季度没有。你在构建任何模型之前先检查这些。
最后,当你得出结论时,你的任务是用简单的术语解释它。可以是这样的:我们看到第四季度新客户销售额增加是因为一场折扣活动,而第一季度没有进行。
这只需要清晰的思考和沟通。
8、你今天就可以开始
我想以一个重要的事情结束。数据科学确实是一个需要真正技术技能的领域。但我认为其背后的思维方式是任何人都可以拥有的。
这种思维方式不需要任何学位或数据集。
你只需要开始提出更好的问题。把问题拆解成更小的。观察你周围的模式。始终寻找证据。保持事情尽可能简单。给出最容易理解的解释。
我相信这是基础,其他一切都建立在其之上。
你今天就可以开始构建那个基础,只需要一颗好奇心和愿意放慢脚步去思考的意愿。
原文链接: How to Think Like a Data Scientist Without Writing Code
汇智网翻译整理,转载请标明出处