海外就业经验:数据专业高手&新手?避免这些不专业的行为 (上)

教育动态2023-02-23 09:29:21爱扬教育网

免费机会下载_只做懂你的交友APP:

同时扫码,机会多多

同时扫码,机会多多

同时扫码,机会多多

同时扫码,机会多多

同时扫码,机会多多

同时扫码,机会多多

同时扫码,机会多多

同时扫码,机会多多

同时扫码,机会多多

同时扫码,机会多多

同时扫码,机会多多

同时扫码,机会多多

随着在每一天中产生和收集的数据越来越多,几乎每家公司都以做出数据驱动的决策而自豪。数据科学正在成为一个越来越热门的领域。

 

你开始阅读这篇文章可能是因为你对数据充满热情并希望能够发展该领域的专业知识。由于现在有很多新手训练营和高校的课程,每个人都可以在几个月甚至几周内感觉自己像个数据专家。但要成为对同事和其他利益相关者真正有帮助、讨人喜欢和可信的“数据合作伙伴”,需要的不仅仅是熟悉SQL和Python以及基本的统计知识。 

 

数据世界的新手与真正了解如何处理数据并成为有用的数据合作伙伴的人之间存在显著差异。我观察到一些人表现出的行为不亚于在空中挥动手臂并大声尖叫“我是新手,我不知道自己在做什么......”。

当我刚开始担任数据科学家时,我自己也有上述大部分行为。这些行为会迅速降低你作为数据合作伙伴的可信度,并使人们质疑你对问题的理解。所以希望我能就什么不该做什么和该做哪些提供一些建议,这样你就不会成为那个数据新手。

 

1.过度解读结果并试图从虚无中编造故事

“我们已经推断出X和Y之间存在正相关……基于30个数据点,我们相信这是由于……”每当我听到人们发表上述言论时,我都会很郁闷。

在进行趋势分析和产生洞察力时,样本量始终是要考虑的第一件事。除非是代表你客户群的焦点小组(我甚至对焦点小组的调查结果表示怀疑,但这是另一个话题),否则30个数据点通常不会为你提供任何可靠的见解。 

还有什么比从极小的数据集中推断“趋势”更尴尬的事情吗?那就是,绞尽脑汁去寻找,能够支持这些“趋势”正在发生的理论。我见过人们提出各种疯狂的理论来解释为什么来自微小数据集的结果是“违反直觉的,却是可以接受的”;当真相本来很简单时,他们在这个过程中失去了可信度……这只是噪音。 

试试这个:不要在样本很小的时候跳入趋势分析,而是专注于建立结构以收集更多质量更好的数据,以便在未来进行这些分析。如果你真的想从小样本中获得一些见解,请在样本数量不足的情况下对自己的发现提出注意事项,并为你报告的指标添加置信区间。

 

2.在使用之前不对数据/查询进行质量检查 (QC)

没有完美的数据集。任何告诉你他们数据集不存在任何问题的人要么在撒谎,要么不了解情况。因此,作为一名数据专家,你应该比从表面上相信数据质量更清楚事实。你查询和分析的每一条数据都需要进行质量检查——比如,确保表实际上按照应有的方式进行了重复数据删除,检查时间戳是否在你认为的时区中,等等。

在使用数据之前不对数据执行质量检查可能会导致意外结果和误导性见解,并使人们怀疑你处理复杂数据的能力。

 

不如试试这个:开发一个质量检查框架(即你执行的测试列表),并在每次使用新数据集时检查它。例如,检查(意外)重复;如果你希望有问题的数据集中,每个客户订单有且仅有一行,请编写一个快速查询以按订单ID分组并计算行数的代码-您会惊讶于有多少“订单级”表有1,000条记录的某个重复订单ID。

永远,永远,永远记住检查你的工作;并与你的利益相关者和专家进行双重完整性检查。

 

相关推荐

猜你喜欢

大家正在看

换一换