最小可检测效应(MDE)
微小的差异很难被发现,需要更大的样本。使用较小的尺寸可以检测到显着的效果。然而,这些基于小样本的“改进”可能并不可靠。
关键是没有固定的样本量,因此可以信任的标称水平和数值范围并不可靠。
如果有某种关于在哪里停止的规则,或者有一个明确的样本量范围,那么基于非常小的样本的 500% 的改进可能会伴随着从 +5% 到 +995% 概率的 95% 的置信水平。
3. 显着性水平
如果我们假设原假设为假,则检验结果被认为具有统计显着性。
这个定义可以简化为一个更简单的解释:如果两个登 印度号码 陆页面的对比测试可以 95% 信任其中一个选项,那么观察到的改进只有 5% 的机会是偶然的结果,或者 95%差异不会因偶然而发生的可能性。
5% 是在线测试普遍接受的起始显着性水平,正如前面提到的,犯 I 类错误的可能性也是如此。 5% 的 alpha 意味着您有 5% 的机会错误地拒绝原假设。
如果将 alpha 水平从 5% 降低到 1%,在其他条件相同的情况下,您同时会增加犯 II 类错误的可能性。犯第二类错误的风险增加会降低测试的有效性。
4. 所需功率水平
在 80% 功率下,有 20% 的机会检测不到真正的差异。如果 20% 对您来说风险太大,您可以将该概率降低到 10%、5% 甚至 1%,这会将统计功效分别提高到 90%、95% 和 99%。
在您认为通过以 95% 或 99% 功效运行测试就能解决所有问题之前,请先了解功效的每一次增加都需要相应增加样本大小和运行测试所需的时间。
那么您真正需要多少电量?转化优化中可接受的误报风险普遍接受的水平为 20%,相应的功效水平为 80%。
80% 的功效没有硬性的标准,但它是 alpha 和 beta 错误风险之间的合理平衡。
必须考虑以下因素:
当您确实可能错过质量改进时,您可以接受哪些风险?
达到每个选项所需功效所需的最小样本量是多少?
如何计算测试的统计功效
您可以使用 A/B 测试计算器。您必须输入值并确定需要多少样本量才能为测试提供足够的功效。如果已知三个输入,我们计算第四个。
例如,您确定每个选项需要 681 个客户的样本量。计算是根据输入进行的:测试功效 80% 和 alpha 5%(95% 统计显着性)。您知道对照组的转化率为 14%,您预计治疗组的转化率为 19%。
样本量
样本量计算
同样,如果您知道每种处理的样本量、alpha 和所需的功率水平(例如 80%),您可以找到实现该功率所需的最小 MDE 效应大小,在本例中为 19%。
頁:
[1]