Home Forums Chinese Forum 大数据分析 【统计科普】Hypothesis Testing

  • 【统计科普】Hypothesis Testing

     Datura updated 1 year, 6 months ago 1 Member · 2 Posts
  • Datura

    Member
    November 15, 2020 at 5:27 pm

    今天科普一个简单的统计方法 hypothesis testing

    (1) Hypothesis Testing

    统计学中,非常重要的基本概念是 Hypothesis test 和数据分布。而且每个 test 后面都有许多 assumptions. 千万小心。

    比如你进行了一个试验,不同温度下的反应收率:

    T= 25C, y = 67.3 +/- 10.2%, n = 12.
    T= 60C, y = 75.9 +/- 13.1%, n = 20.

    那么这二组数据到底是否有区别?还是只是误差所致?就需要统计学来确定,是否 significantly different.

    (2) Student‘s t-Test

    最常见的测试是 t-test, 或者叫做 Student’s t-Test. 关于这个名字的来历,还有一段有趣的掌故。感兴趣的可以看这里:

    https://en.wikipedia.org/wiki/Student%27s_t-test

    Student’s t-test 其测试原理是:

    1. H0 (null hypothesis): u1 = u2 (假设二组数据的平均值相同 (mean of population, u),即没有差别)

    2. H1 (alternative hypothesis): u1 not equal to u2. ( 2- sided testing)

    统计就是检验这2个假说,哪个成立,其取决于数据的分布类型,试验次数,和置信水平 confidence level. Z-test 就是假设数据是正态分布 (normal distribution),t-test 就是假定数据是 t-分布 (t-distribution)。等等等等.

    使用 Excel, SAS 等软件进行计算,一般都会告诉你一个 p-value, 这是判别哪个假说成立的试金石。p-value 的定义很复杂,一言难尽,只说怎么使用它。

    假设输出的结果, p = 0.036. 而要求的 confidence level = 95%. 那么, significance level alpha = 1-95% = 0.05. p < alpha, then we can reject H0, and H1 is valid. 结果表明,两组数据 有95% 的统计可能,是有显著差别的。但是如果要求的置信度是 99%. then alpha = 1-99% = 0.01, p > alpha.

    此时,我们没有充分的理由去 reject H0。也就是说,两组数据,在 99% 的置信水平上,不一定就有显著差别。试验数据的差别,说不定只是误差波动所致。所以,p-value and confidence level, 是最后判断模型是否有效的依据。

    • This discussion was modified 1 year, 6 months ago by  Datura.
  • Datura

    Member
    November 15, 2020 at 5:33 pm

    (3)Analysis of Variance (ANOVA) Test

    t-test 还有很多类型,one-way t-test, two-way t-test, paired t-test 等等,其区别以后再说。t-test 只能适用于比较2组数据 ( continuous) ,如果是多变量多组数据,就有些无能为力了。这时, 功能强大的 ANOVA 同学就闪亮登场。

    比如上面的化学反应,在 6 个不同反应温度下的进行试验,最后得到了6 组不同温度 下的反应产率。该如何判别这些数据是否有区别呢?Just follow the same way.

    H0: u1 = u2 = u3 =…..= u6

    H1: u1, u2….u6 not all equal.

    把实验数据带入 Excel, SAS, 进行 ANOVA 计算,最后如果:

    1. p > alpha, then we can not reject H0. 就是说,这许多组数据,可能并没有显 著差别,说不定是误差所致。

    2. p < alpha, then we can reject H0. 就是说,这6组数据,有显著差别,其中,至 少有一组与其他组是不同的。

    ANOVA 可以用来评估几乎所有的数据比较,回归分析,功能强大。<wbr>同时注意:ANOVA has both one-way and two-way ANOVA.

    In digital marketing, Student’s t-Test or Chi-Squared Test 被称为 A/B testing. 实际上,它们就是这里介绍的假说检验 hypothesis testing. 不要披上马甲就不认识了噢!

Log in to reply.

Original Post
0 of 0 posts June 2018
Now