我用AI清洗数据后不再担心被取代
如果你是一名数据分析师,你一定知道数据清洗可能是工作中最令人筋疲力尽的部分。不幸的是,数据清洗有时可能占据你数据分析工作的 80% 以上。
然而,为了获得更好、更准确的分析结果,你无法跳过数据清洗过程,尽管它既耗时又令人疲惫。
这就是为什么我开始在自己的工作流中使用 AI。在本文中,我将与你分享将 AI 集成到我的工作流程后的真实经验,以及使用后的一些观察。
在我们开始之前,我想先分享一下我的反思。
AI 不会取代你。你的分析技能和思维方式仍然至关重要,即使你将 AI 引入你的工作。
1、真实例子:用 AI 来匹配和删除重复的客户记录
让我带你走一个我处理的典型场景。
在我其中一个项目中,我需要从几个不同的数据源中检索 ID 记录。申请人可能通过多个平台申请,每个平台的 ID 号码都不同。我的目标是整理并将他们所有的 ID 提取到一个主列表中,以便我可以用它作为参考来检查后续的重复申请。
不同数据源中存在的相似信息是客户姓名和他们的民事地址。然而,客户姓名和民事地址通常是由申请人手动输入的。这种数据不一致性增加了数据匹配的难度。
我通常的数据清洗过程是让 AI 帮我生成自定义的 Python 代码。我之前没有尝试过让 AI 来处理那些烦人的数据清洗工作。因此,我想试一试,看看效果如何。
我将所有数据文件附加给 AI,并提供了清晰的指令,要求根据客户姓名和地址匹配来自不同来源的申请 ID。我没有提及分析过程,因为我希望 AI 能帮我发现那些数据不一致性并自动应用一些标准化处理。
然而,结果一团糟;我回到了原始数据源,用 Ctrl+F 手动检查。其中一半匹配错误。
我的梦想没有成真。
我不得不回到原始数据源,花时间理解数据中的模式,并不断精炼我的提示,重复了大约一百次。
以下是我从这个过程中学到的一些关键点,以及我为了让结果更理想而在提示中包含的内容。
2、即使现在有 AI,你仍然需要了解你的数据
AI 不知道我们想要分析什么模式,所以我们仍然需要在使用 AI 的同时查看原始数据。
使用 AI,探索性数据分析仍然是必要的。唯一的区别是:
- 没有 AI:我们需要自己编写 EDA 的代码
- 有 AI:我们只需要告诉 AI 我们的想法和想要探索的内容。
在我的数据探索过程中,我发现有些客户在姓名中包含了中间名,而其他客户只提供了名和姓。因此,我不得不比较两种格式以找到匹配项。
此外,地址也是不一致的;例如,有些客户输入了"St",而另一些输入了"street",因此我需要在匹配之前进行标准化。
3、定义转换规则
下一步是定义我的分析规则。
- 我标准化了道路名称:将 Road 和 Rd、Street 和 St、Ave 和 Avenue 等全部统一为缩写和小写。
- 我连接了两种格式的全名(名 + 姓 & 名 + 中间名 + 姓),并移除了名称中的所有空格以最大化匹配。
- 我移除了任何符号,如逗号、空格或冒号,使地址更加一致。
- 最后,如果没有匹配,则返回"未找到"。
4、告诉 AI 你的分析逻辑
在定义数据转换规则后,我需要让 AI 知道我的分析工作流程。
例如,姓名将作为优先匹配项,与地址相比出错的可能性较小。然而,存在同名的人住在不同地址的可能。
如果我只比较姓名,我可能会错误匹配客户,但如果我同时选择姓名和地址,由于输入错误,我会得到大量"未找到"的结果。
因此,我定义了工作流,要求 AI 先比较两种姓名格式,并返回所有匹配的 ID。其次,对于那些返回了多个 ID 的,请使用地址进行匹配,看姓名和地址是否都匹配,然后返回两者都匹配的 ID。
通过这种方法,我既能保证最大化的匹配,又能有效处理由于同名导致的错误匹配。
5、永远不要 100% 信任 AI
定义验证来检查 AI 的结果。
因为我不确定 AI 返回的结果是否正确,我要求 AI 为我创建一个新列。这个新列用于记录备注,说明 AI 是通过哪种方法匹配的——全名还是地址。
因此,我可以根据这个备注来验证 AI 的结果。
6、时刻注意数据保密性
最后,这是必要且关键的,但人们有时可能会忘记。虽然 AI 聊天机器人或 LLM 模型保证他们不存储个人数据,但在向 AI 提供客户数据时,我们仍然需要格外小心。
当要求 AI 进行数据分析时,我们必须向 AI 提供真实的实际数据,而不是模拟数据。因此,请确保你的机构批准了任何可以内部使用的 AI 模型。
否则,最好要求 AI 编写 Python 代码,然后在本地运行你的清洗和分析,以保护你的公司以及你的客户信息。
7、结束语
在进行这些更新和提示调优之后,结果是令人印象深刻的。它为我节省了大量时间,让我避免了数据清洗带来的倦怠。感谢这个项目,我学到了一些新技能和新策略来清洗我的数据,但最重要的是,它让我意识到你和我这样的数据分析师的工作不会轻易被 AI 取代。
以下是我的观察。
- 模式因情况而异;你需要自己定义这些模式。AI 可以帮助你检查空数据或将所有单词标准化为小写,但要让 AI 自动运行其他检查可能很困难。 你仍然需要编写提示,用你的数据分析知识告诉 AI。如果没有之前的数据清洗经验,你可能不会有将 Road 和 Rd 统一起来的意识。
- 分析工作流仍然与你的数据分析经验密切相关。你想要分析什么以及如何聚合数据,仍然依赖于你的分析技能。 在你自己进行数据分析之前,无论是用 Excel 还是 Python,你可能不知道什么样的聚合或清洗方法能够带来更好的结果。
- 理解你的数据意味着你熟悉你的业务概念和工作流程。如果你不告诉 AI,AI 不会知道你们公司收集数据的标准流程。我相信领域知识和分析思维是让你保持闪光的两个关键。
如果你只知道如何写 SQL、Python 或 Excel 公式,你可能会被取代,但如果你具备分析性思维并知道如何利用 AI 使你的工作流程更高效,你就不会被取代。
好了,我希望你今天学到了一些东西,在这个时代感到不那么焦虑。继续利用 AI 工具加速你的分析,但记住要巩固你的分析思维以及领域知识。
原文链接: I Used AI for Data Cleaning and Here's Why I Think AI Won't Replace Me
汇智网翻译整理,转载请标明出处