统计学思维:如何利用数据分析提高企业绩效
上QQ阅读APP看书,第一时间看更新

本书的分析流程及关键词

在介绍分析流程时,我会依次对Outcome、解析单位、解释变量、数据源示例以及具体分析手法等进行说明。

所谓Outcome,指的是数据分析时最关键的“想使之最大化或最小化”的值。一般的统计学教材将其称为结果变量、因变量,或简单称之为Y,机器学习领域中它也被称为外部标准。而我之所以坚持使用“Outcome”这一叫法是有原因的。

Outcome直译的意思是成果或产物。在我原本的专业领域,即政策科学及医学领域也会用到这个词,它体现了一种实用主义精神。从统计学角度而言,提到因变量,不管我们分析时用的是多么无关紧要的数据,总是能得到相应的结果。而提到Outcome,我们就必须动脑去思考“最终想达到的成果是什么”。

本书或者应该说我本人经常在思考:究竟什么因素才能帮助企业达到获取利润这一终极目标?与利润直接相关的Outcome比与利润相关性较弱的Outcome要好,影响到数百亿日元利润的Outcome比顶多只影响到数百万日元利润的Outcome要好。

我见过的大部分“毫无用处的分析报告”,其根本问题都在于Outcome设置不当,从而陷入一种“从统计学角度来看十分正确,但实际却毫无价值”的怪圈。例如,当我们针对“单次来店的消费单价”这种并不太恰当的Outcome进行分析时,得到的结果是“我们要重视那些在折扣期间来店集中消费的顾客”。这个结果从统计学角度来看相当正确,但如果仅靠这些每年只在大幅折扣活动期间才来店消费的顾客,恐怕店铺完全无法盈利吧。相比之下,这家企业的大部分利润一定是由那些定期来店以正价消费的顾客们贡献的。因此,长期的客户终身价值才是更为妥当的Outcome,而非单次消费单价。更进一步来说,我们应该分析的是毛利,而不是销售额。综上所述,如果我们对“贡献大量毛利的顾客与贡献少量毛利的顾客之间的区别在哪里”进行分析,就不会得到一份“毫无用处的分析报告”了。

接着,当我们实际开始分析时,还需要考虑应该以哪种解析单位(也有人将其称为分析单位,本书统一称为“解析单位”)来做分析。例如,就算用的是同一批数据,Outcome也同为销售额,那么我们想了解的到底是“销售额高的企业与销售额低的企业之间的差别”还是“销售额(也就是客单价)高的顾客和销售额低的顾客之间的差别”,抑或是“销售量高的产品与销售量低的产品之间的差别”。切入点不同,我们得到的分析结果也完全不同,应采取的行动自然也就各不相同了。

如果某种特性(变量)能对各解析单位下的Outcome差异做出解释,我们就称其为解释变量。我们也可以将解释变量定义为“数据所呈现出的解析单位的特征”。关于这一点,我将在各章节中通过具体案例做出说明。

有时,候选解释变量种类越多,我们越会发现某些意料之外的解释变量竟与Outcome息息相关。反之,至于是否还有一些实际上与Outcome息息相关却未得到相应数据验证的解释变量,仅仅根据手头的数据我们是完全不得而知的。所以,本书除了试图给大家提供尽量多样化的解释变量以外,还将就解释变量的思考方式、各类解释变量的数据源获取及使用方法进行说明。

最后,我将综合阐述该使用哪种分析手法,怎样做具体分析,怎样解读分析结果以及根据分析结果该采取什么行动。由于本书更为侧重实用性的数据分析,因此将以如下两种分析方法为主:当使用以数字大小表示的定量型Outcome时,用多元回归分析;当使用表示“是否处于某种状态”的定性型Outcome时,用逻辑回归分析。当然,根据Outcome性质不同,有时可能更适合用泊松回归法或β回归法,但各位只要至少掌握上述两种方法,就能挖掘到提升利润的点子,并通过A/B测试(或称随机对照试验)做实际验证。

我将通过本书为大家提供一套提出“问题”(专业术语为调研问题,即Research Question)并探索答案的方法。而所谓“问题”指的就是,“Outcome很理想的解析单位与Outcome并不理想的解析单位之间的差异是否取决于解释变量”。至于如何构思这一过程,正是调研设计应该做的事。因此,换句话说,本书呈现给大家的同时也是“调研设计的基础模板”。

基于上述理由,我无法在本书中向大家透露各案例中的实际公司名称或具体分析结果,但本书介绍的所有分析流程都源于我实际负责过的项目,因此我同时也会尽量给大家穿插讲解一些唯有实际经历过才能体会到的注意事项。

当然,对研究人员而言,除了调研问题本身必须具有独创性以外,他还需要提前解读大量先行研究资料。同时,还要明确研究的领域是经营战略还是市场运营,领域不同,对应的调研设计也大相径庭。不过,就像我在前文中所提到的,各位只需要挖掘那些“公司大部分人都不知道的提升利润的好点子”就可以了。因此,Outcome和解析单位本身并不需要有多大的独创性,我们只要参考先行研究找到真正重要的解释变量,再用公司数据去做验证,这样就足够有意义了。当然,如果各位能在此基础之上提出更具创意的调研问题,并根据模板去实际分析的话,那就更棒了。

如果本书中介绍的各领域调研设计基础模板能启发并帮助各位读者从前人的智慧和数据之中创造出全新的价值,本人将深感荣幸。