“帕累托法则”
|
据科学有助于为企业预测新的帕累托场景,但站在数据科学本身的角度看,这一技术也可以从帕累托法则中受益。利用该法则可以使数据科学显著提高效率。在本文中,笔者将分享一些方法,作为数据科学家,我们可以利用帕累托法则的力量来指导我们的日常工作。 项目优先级排序 如果您是数据科学部门领导/经理,您不可避免地需要帮助为您的组织制定分析策略。虽然不同的业务领导者会提出各自不同的需求,但您必须阐明所有这些组织(或业务单位)需求,并为之制定路线图,确定优先级。一种简单的方法是量化解决每个分析需求所能获得的价值,并按值的递减顺序对它们进行排序。您经常会注意到,少部分的问题/用例拥有不成比例的价值(帕累托法则),应优先于其他问题/优先级。实际上,更好的方法是量化解决/实现每个问题/用例的复杂性,并基于价值和复杂性之间的权衡来优先考虑它们(例如,将它们放在x轴为复杂性,y轴为价值的坐标图上)。 问题范围 业务问题往往是模糊和非结构化的,数据科学家的工作需要确定正确的范围。范围界定通常需要将注意力集中在问题最重要的方面,并忽略那些价值较低的方面。首先,查看输出/效果在输入/原因上的分布将有助于我们了解问题空间中是否存在高级帕累托。随后,我们可以选择仅查看某些输入/输出或原因/结果。例如,如果20%的商店产生80%的销售额,我们可以将其余商店分组到一个集群中并进行分析而不是单独评估它们。 范围界定还涉及到对风险的评估——更深层次的评估通常会告诉我们,最重要的项目会带来更高的风险,而最底层的项目发生的可能性很小(帕累托法则)。我们可以将时间和精力放在一些主要风险上,而不是解决所有风险。 数据规划
复杂的业务问题需要的数据超出分析数据集中可用的数据。我们需要请求访问、购买、获取、抓取、解析、处理和集成来自内部/外部源的数据。它们具有不同的形状、大小、健康状态、复杂性、成本等。等待整个数据计划落实到位,可能会导致项目的延迟不受我们控制。有一种简单的方法是,根据这些数据对最终解决方案的价值,对这些数据需求进行分类,例如绝对必须拥有、有好处和可选的(帕累托法则)。这将帮助我们专注于绝对必须拥有的东西,而不是被可选的东西分心或拖延。除了价值之外,考虑数据获取的成本、时间和精力方面的因素将帮助我们更好地对数据规划工作进行优先级排序。 (编辑:济宁站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |

