EB

Estatı́stica Básica

\(\newcommand{\footnotename}{footnote}\) \(\def \LWRfootnote {1}\) \(\newcommand {\footnote }[2][\LWRfootnote ]{{}^{\mathrm {#1}}}\) \(\newcommand {\footnotemark }[1][\LWRfootnote ]{{}^{\mathrm {#1}}}\) \(\let \LWRorighspace \hspace \) \(\renewcommand {\hspace }{\ifstar \LWRorighspace \LWRorighspace }\) \(\newcommand {\mathnormal }[1]{{#1}}\) \(\newcommand \ensuremath [1]{#1}\) \(\newcommand {\LWRframebox }[2][]{\fbox {#2}} \newcommand {\framebox }[1][]{\LWRframebox } \) \(\newcommand {\setlength }[2]{}\) \(\newcommand {\addtolength }[2]{}\) \(\newcommand {\setcounter }[2]{}\) \(\newcommand {\addtocounter }[2]{}\) \(\newcommand {\arabic }[1]{}\) \(\newcommand {\number }[1]{}\) \(\newcommand {\noalign }[1]{\text {#1}\notag \\}\) \(\newcommand {\cline }[1]{}\) \(\newcommand {\directlua }[1]{\text {(directlua)}}\) \(\newcommand {\luatexdirectlua }[1]{\text {(directlua)}}\) \(\newcommand {\protect }{}\) \(\def \LWRabsorbnumber #1 {}\) \(\def \LWRabsorbquotenumber "#1 {}\) \(\newcommand {\LWRabsorboption }[1][]{}\) \(\newcommand {\LWRabsorbtwooptions }[1][]{\LWRabsorboption }\) \(\def \mathchar {\ifnextchar "\LWRabsorbquotenumber \LWRabsorbnumber }\) \(\def \mathcode #1={\mathchar }\) \(\let \delcode \mathcode \) \(\let \delimiter \mathchar \) \(\def \oe {\unicode {x0153}}\) \(\def \OE {\unicode {x0152}}\) \(\def \ae {\unicode {x00E6}}\) \(\def \AE {\unicode {x00C6}}\) \(\def \aa {\unicode {x00E5}}\) \(\def \AA {\unicode {x00C5}}\) \(\def \o {\unicode {x00F8}}\) \(\def \O {\unicode {x00D8}}\) \(\def \l {\unicode {x0142}}\) \(\def \L {\unicode {x0141}}\) \(\def \ss {\unicode {x00DF}}\) \(\def \SS {\unicode {x1E9E}}\) \(\def \dag {\unicode {x2020}}\) \(\def \ddag {\unicode {x2021}}\) \(\def \P {\unicode {x00B6}}\) \(\def \copyright {\unicode {x00A9}}\) \(\def \pounds {\unicode {x00A3}}\) \(\let \LWRref \ref \) \(\renewcommand {\ref }{\ifstar \LWRref \LWRref }\) \( \newcommand {\multicolumn }[3]{#3}\) \(\require {textcomp}\) \(\newcommand {\intertext }[1]{\text {#1}\notag \\}\) \(\let \Hat \hat \) \(\let \Check \check \) \(\let \Tilde \tilde \) \(\let \Acute \acute \) \(\let \Grave \grave \) \(\let \Dot \dot \) \(\let \Ddot \ddot \) \(\let \Breve \breve \) \(\let \Bar \bar \) \(\let \Vec \vec \) \(\require {mathtools}\) \(\newenvironment {crampedsubarray}[1]{}{}\) \(\newcommand {\smashoperator }[2][]{#2\limits }\) \(\newcommand {\SwapAboveDisplaySkip }{}\) \(\newcommand {\LaTeXunderbrace }[1]{\underbrace {#1}}\) \(\newcommand {\LaTeXoverbrace }[1]{\overbrace {#1}}\) \(\newcommand {\LWRmultlined }[1][]{\begin {multline*}}\) \(\newenvironment {multlined}[1][]{\LWRmultlined }{\end {multline*}}\) \(\let \LWRorigshoveleft \shoveleft \) \(\renewcommand {\shoveleft }[1][]{\LWRorigshoveleft }\) \(\let \LWRorigshoveright \shoveright \) \(\renewcommand {\shoveright }[1][]{\LWRorigshoveright }\) \(\newcommand {\shortintertext }[1]{\text {#1}\notag \\}\) \(\newcommand {\vcentcolon }{\mathrel {\unicode {x2236}}}\) \(\newcommand {\bm }[1]{\boldsymbol {#1}}\) \(\require {cancel}\) \(\newcommand {\firsthdashline }[1][]{\hdashline }\) \(\let \lasthdashline \firsthdashline \) \(\let \cdashline \cline \) \(\require {colortbl}\) \(\let \LWRorigcolumncolor \columncolor \) \(\renewcommand {\columncolor }[2][named]{\LWRorigcolumncolor [#1]{#2}\LWRabsorbtwooptions }\) \(\let \LWRorigrowcolor \rowcolor \) \(\renewcommand {\rowcolor }[2][named]{\LWRorigrowcolor [#1]{#2}\LWRabsorbtwooptions }\) \(\let \LWRorigcellcolor \cellcolor \) \(\renewcommand {\cellcolor }[2][named]{\LWRorigcellcolor [#1]{#2}\LWRabsorbtwooptions }\) \(\newcommand {\tcbset }[1]{}\) \(\newcommand {\tcbsetforeverylayer }[1]{}\) \(\newcommand {\tcbox }[2][]{\boxed {\text {#2}}}\) \(\newcommand {\tcboxfit }[2][]{\boxed {#2}}\) \(\newcommand {\tcblower }{}\) \(\newcommand {\tcbline }{}\) \(\newcommand {\tcbtitle }{}\) \(\newcommand {\tcbsubtitle [2][]{\mathrm {#2}}}\) \(\newcommand {\tcboxmath }[2][]{\boxed {#2}}\) \(\newcommand {\tcbhighmath }[2][]{\boxed {#2}}\)

11.2 Resolução

  • 11.2.1 As médias de longevidade das duas espécies foram comparadas por intervalo de confiança. Porém o teste de Shapiro-Wilk normalidade dentro de cada espécie e o teste de homogeneidade de variâncias foram aplicados antes. Os resultados de todos os procedimentos estão descritos a seguir.

    • a) Para o T. nerudai os resultados do teste de Shapiro-Wilk foram: estatística \(W\) \(=\) 0,8958428 e valor-\(p\) \(=\) 0,3065471. Para a espécie T. dendrolimi os resultados foram: \(W\) \(=\) 0,8987753 e valor-\(p\) \(=\) 0,3236299. Como ambos os valores foram superior ao nível de significância nominal de 0,05, não devemos rejeitar a hipótese nula de normalidade. Assim, este pressuposto, para utilizarmos os métodos de estimação baseados em normalidade, foi atendido.

    • b) Os resultados dos testes deste capítulo estão resumidos na tabela seguinte:

      .
      Método Estatística valor-\(p\)
      LRT \(\chi ^2_c=\)0,1627 0,6867
      Teste F \(F_C=\)1,4101 0,6871
      LRT corr. curtose \(\chi ^2_c=\)0,3594 0,5488
      LRT corr. curtose 2 \(\chi ^2_c=\)0,3894 0,5326
      BF \(F_C=\)0,0312 0,8628
      Levene tradicional \(F_C=\)0,1866 0,6735
      Levene desvio quad. \(F_C=\)0,3964 0,5408
      Layard \(F_C=\)0,4303 0,5242
      O’Brien \(F_C=\)0,2753 0,6094

      Todos os resultados, de todos os testes, levam a não rejeição da hipótese nula de homogeneidade de variâncias. É conveniente que haja um esclarecimento aqui, que na vida real optamos por um destes testes apenas e apresentamos seus resultados. Como são duas populações e a hipótese nula de normalidade não foi rejeitada, então bastaria aplicar o teste \(F\) neste caso. Se houvesse rejeição da normalidade, poderíamos optar por qualquer uma das \(5\) últimas opções, que são teste tipo Levene. Estes testes são robustos à violação da normalidade. Aqui o objetivo é que o leitor treine na aplicação destes testes. Os detalhes dos cálculos foram deixados a cargo do leitor para que haja este treinamento. O pressuposto de homogeneidade de variâncias foi também atendido e a estimação por intervalo de populações normais homocedásticas pode ser aplicada.

    • c) Uma vez que há normalidade das amostras e as variâncias são homogêneas, então o intervalos normal pode ser utilizado. Os resultados detalhados são apresentados a seguir.

      O intervalo de \(\gamma \) \(=\) \(1-\alpha \) de confiança para a diferença de média \(\mu _1-\mu _2\) entre duas populações normais com variância comum \(\sigma ^2\) é dado por

      \begin{align*} IC_{1-\alpha }(\mu _1-\mu _2):& \bar {X}_1 -\bar {X}_2 \pm e = \bar {X}_1 -\bar {X}_2 \pm t_{\alpha /2;\nu }\sqrt {S^2_p \left (\dfrac {1}{n_1}+\dfrac {1}{n_2}\right )}, \end{align*} em que \(t_{\alpha /2;\nu }\) é o quantil superior da distribuição \(t\) de Student com \(\nu \) \(=\) \(n_1 + n_2 - 2\) graus de liberdade. Os seguintes resultados em dias foram obtidos.

      .
      Itens Trichograma nerudai Trichograma dendrolimi
      Média 2,7471 1,7014
      Variância 0,4532 0,3214
      Tamanho da amostra 7 7

      A variância combinada é

      \begin{align*} S^2_p =& \dfrac {(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}= \dfrac {6\times 0,4532 + 6\times 0,3214}{7+7-2}=0,3873. \end{align*} O quantil superior 2,5% da distribuição de \(t\) de Student com \(\nu \) \(=\) \(12\) graus de liberdade é igual a \(t_{0,025;\nu =12}\) \(=\) 2,1788. O intervalo de confiança é

      \begin{align*} IC_{1-\alpha }(\mu _1-\mu _2):&\,\,\, \bar {X}_1 -\bar {X}_2 \pm t_{\alpha /2;\nu }\sqrt {S^2_p \left (\dfrac {1}{n_1}+\dfrac {1}{n_2}\right )} \\ & = 2,7471-1,7014 \pm 2,1788\sqrt {0,3873\left (\dfrac {1}{7}+\dfrac {1}{7}\right )}\\ &= 1,0457\pm 0,7248\\ & =[0,3209,\,\, 1,7705]. \end{align*} Dessa forma, a verdadeira diferença \(\mu _1-\mu _2\), desconhecida, entre as médias da espécie Trichograma nerudai \(\mu _1\) e da espécie Trichograma dendrolimi \(\mu _2\) é um valor que deve se situar entre 0,3209 dia e 1,7705 dia com \(95\)% de confiança. Portanto, é possível inferir que a espécie Trichograma nerudai possui tempo de vida médio superior ao tempo médio de vida da espécie Trichograma dendrolimi, em uma quantidade, com \(95\%\) de confiança, que deve se situar neste intervalo.

  • 11.2.2 Neste exemplo temos duas variáveis, a glicose arterial e o fluxo sanguíneo. Dividimos em duas partes considerando cada variável.

    • a) Para a glicose:

      As estatísticas descritivas de ambas populações (\(1\) para o controle e \(2\), para a tratada) são apresentadas a seguir.

      .
      População Est. Desc.
      \((i)\) \(S^2_i\) \(\hat {\sigma }^2_i\) \(\bar {X}_{i.}\) \(n_{i}\)
      1 0,85 0,7650 3,21 10
      2 0,80 0,7429 3,11 14

      A variância combinada de máxima verossimilhança e o estimador não viesado são

      \begin{align*} \hat {\sigma }^2 =& \dfrac {\displaystyle \sum _{i=1}^{k} n_i \hat {\sigma }_i^2}{n}= \dfrac {10\times 0,7650+14\times 0,7429}{24}\\ =& 0,7521 \end{align*} e

      \begin{align*} S^2_p =& \dfrac {\displaystyle \sum _{i=1}^{k} (n_i-1) S_i^2}{n-k}= \dfrac {9\times 0,85+13\times 0,80}{24-2}=0,8205. \end{align*}

      • i) teste LRT:

        A estatística do teste é

        \begin{align*} \chi ^2_c =& 24\times \ln (0,7521) - \left [10\times \ln (0,7650)+14\times \ln (0,7429)\right ]\\ =& 0,0025, \end{align*} associada à \(\nu \) \(=\) \(k - 1\) \(=\) \(1\) grau de liberdade.

        O valor-\(p\) é dado por

        \begin{align*} \textrm {valor-}p =& P(\chi ^2\ge 0,0025;\nu =1)=0,9600. \end{align*}

        Equivalentemente, consultando a Tabela A.3 com \(\alpha \) \(=\) \(5\%\) e \(\nu \) \(=\) \(1\) grau de liberdade, tem-se o quantil superior qui-quadrado \(5\%\), o qual é igual a 3,841. Assim, como o valor calculado de 0,0025 é inferior ao valor crítico de 3,841 (valor tabelado) ou o valor-\(p\) é superior ao valor nominal de \(5\%\), \(H_0\) não deve ser rejeitada nesse nível nominal de significância. As variâncias podem ser consideradas homogêneas e a escolha no exemplo 11.1 (do Livro) foi acertada.

      • ii) Teste de Bartlett (LRT com correção de Bartlett (1937))

        A estatística do teste é

        \begin{align*} \chi ^2_c =& \dfrac {1}{1+\dfrac {1}{3(2-1)}\times \left [\dfrac {1}{10} + \dfrac {1}{14}-\dfrac {1}{24-2}\right ]} \times \\ &\times \left [(24-2)\times \ln (0,8205)- 10\times \ln (0,85)-14\times \ln (0,80)\right ]\\ =& 0,0094, \end{align*} associada com \(\nu \) \(=\) \(1\) grau de liberdade.

        O valor-\(p\) é dado por

        \begin{align*} \textrm {valor-}p =& P(\chi ^2\ge 0,0094;\nu =1)=0,9229. \end{align*}

        Da mesma forma que no caso anterior, a hipótese nula \(H_0\) não deve ser rejeitada considerando o valor nominal de significância de \(5\%\), uma vez que o valor-\(p\) é superior a 0,05 ou o valor qui-quadrado calculado de 0,0094 é inferior ao valor tabelado de 3,841.

      • iii) Teste \(F\)

        O valor da estatística, \(F_c\), é dado por

        \begin{align*} F_c=& \dfrac {S^2_1}{S^2_2}=\dfrac {0,85}{0,80}=1,0625, \end{align*} associado com \(\nu _1 = 9\) graus de liberdade da variância do numerador da expressão (população \(1\)) e \(\nu _2 = 13\) graus de liberdade associados ao denominador da expressão (população \(2\)). Assim, tem-se

        \begin{align*} \textrm {valor-}p =& 2\min (P(F_{\nu _1=9,\nu _2=13}\le 1,0625),1-P(F_{\nu _1=9,\nu _2=13}\le 1,0625))\\ =& 2\times \min (0,5535,0,4465)\\ =&0,8931. \end{align*}

        Consultando a Tabela A.6, dos quantis superiores da distribuição \(F\), tem-se \(F_{0,025;\nu _1=9,\nu _2=13}\) \(=\) 3,31 e \(F_{0,975;\nu _1=9,\nu _2=13}\) \(=\) 0,26. Como o valor calculado de \(F\) de 1,0625 está entre os dois valores Tabelados, ou, equivalentemente, o valor-\(p\) é superior ao valor nominal de \(5\%\), conclui-se que não existem evidências significativas para rejeitar a hipótese nula de igualdade de variâncias populacionais. Todos os três testes tiveram o mesmo resultado, em termos da decisão tomada. em relação ao exemplo 11.1 (do Livro), onde se considerou as variâncias homogêneas, a decisão, com base nos presentes testes, foi acertada.

    • b) Para o fluxo sanguíneo:

      As estatísticas descritivas de ambas populações (\(1\) para o controle e \(2\), para a tratada) são apresentadas a seguir.

      .
      População Est. Desc.
      \((i)\) \(S^2_i\) \(\hat {\sigma }^2_i\) \(\bar {X}_{i.}\) \(n_{i}\)
      1 4 3,6000 94 10
      2 36 33,4286 120 14

      A variância combinada de máxima verossimilhança e o estimador não viesado são

      \begin{align*} \hat {\sigma }^2 =& \dfrac {\displaystyle \sum _{i=1}^{k} n_i \hat {\sigma }_i^2}{n}= \dfrac {10\times 3,6000+14\times 33,4286}{24}\\ =& 21 \end{align*} e

      \begin{align*} S^2_p =& \dfrac {\displaystyle \sum _{i=1}^{k} (n_i-1) S_i^2}{n-k}= \dfrac {9\times 4+13\times 36}{24-2}\\ =& 22,9091. \end{align*}

      • i) teste LRT:

        A estatística do teste é

        \begin{align*} \chi ^2_c =& 24\times \ln (21) - \left [10\times \ln (3,6000)+14\times \ln (33,4286)\right ]\\ =& 11,1275, \end{align*} associada à \(\nu \) \(=\) \(k - 1\) \(=\) \(1\) grau de liberdade.

        O valor-\(p\) é dado por

        \begin{align*} \textrm {valor-}p =& P(\chi ^2\ge 11,1275;\nu =1)=0,0009. \end{align*}

        Consultando a Tabela A.3 com \(\alpha \) \(=\) \(5\%\) e \(\nu \) \(=\) \(1\) grau de liberdade, tem-se o quantil superior qui-quadrado \(5\%\), o qual é igual a 3,841. Assim, como o valor calculado de 11,1275 é superior ao valor crítico de 3,841 (valor tabelado) ou o valor-\(p\) é inferior ao valor nominal de \(5\%\), \(H_0\) deve ser rejeitada nesse nível nominal de significância. As variâncias devem ser consideradas heterogêneas e a decisão no exemplo 11.1 (do Livro) foi acertada.

      • ii) Teste de Bartlett (LRT com correção de Bartlett (1937))

        A estatística do teste é

        \begin{align*} \chi ^2_c =& \dfrac {1}{1+\dfrac {1}{3(2-1)}\times \left [\dfrac {1}{10} + \dfrac {1}{14}-\dfrac {1}{24-2}\right ]} \times \\ &\times \left [(24-2)\times \ln (22,9091)- 10\times \ln (4)-14\times \ln (36)\right ]\\ =& 9,3853, \end{align*} associada com \(\nu \) \(=\) \(1\) grau de liberdade.

        O valor-\(p\) é dado por

        \begin{align*} \textrm {valor-}p =& P(\chi ^2\ge 9,3853;\nu =1)=0,0022. \end{align*}

        Da mesma forma que no caso anterior, a hipótese nula \(H_0\) deve ser rejeitada considerando o valor nominal de significância de \(5\%\), uma vez que o valor-\(p\) é inferior a 0,05 ou o valor qui-quadrado calculado de 9,3853 é superior ao valor tabelado de 3,841.

      • iii) Teste \(F\)

        O valor da estatística, \(F_c\), é dado por

        \begin{align*} F_c=& \dfrac {S^2_1}{S^2_2}=\dfrac {4}{36}=0,1111, \end{align*} associado com \(\nu _1 = 9\) graus de liberdade da variância do numerador da expressão (população \(1\)) e \(\nu _2 = 13\) graus de liberdade associados ao denominador da expressão (população \(2\)). Assim, tem-se

        \begin{align*} \textrm {valor-}p =& 2\min (P(F_{\nu _1=9,\nu _2=13}\le 0,1111),1-P(F_{\nu _1=9,\nu _2=13}\le 0,1111))\\ =& 2\times \min (0,0012,0,9988)\\ =&0,0024. \end{align*}

        Consultando a Tabela A.6, dos quantis superiores da distribuição \(F\), tem-se \(F_{0,025;\nu _1=9,\nu _2=13}\) \(=\) 3,31 e \(F_{0,975;\nu _1=9,\nu _2=13}\) \(=\) 0,26. Como o valor calculado de \(F\) de 0,1111 é menor que o limite inferior (0,26), que determina a região crítica, ou, equivalentemente, o valor-\(p\) é inferior ao valor nominal de \(5\%\), conclui-se que existem evidências significativas para rejeitar a hipótese nula de igualdade de variâncias populacionais. Todos os três testes tiveram o mesmo resultado, em termos da decisão tomada. em relação ao exemplo 11.1 (do Livro), onde se considerou as variâncias heterogêneas, a decisão, com base nos presentes testes, foi acertada.

  • 11.2.3 Os dados a serem analisados são:

    .
    Grupos Amostra
    256 209 0 0 0 44 49 117 6 0
    \(G_1\) 0 75 34 13 0 90 0 32 0 205
    332 0 31 0
    0 89 0 0 0 163 286 3 843 0
    \(G_2\) 158 443 311 232 179 179 19 142 100 0
    432

    FONTE: Manly (1997).

    Estes dados são do conteúdo de biomassa seca de Coleóptera (em mg) nos estômagos de duas classes de lagartos cornudos (Phrynosoma douglassi brevirostre). Os lagartos foram classificados pelos tamanhos. A primeira classe é de machos adultos e de fêmeas jovens (\(G_1\)) com \(n_1 = 24\) e a segunda de fêmeas adultas (\(G_2\)) com \(n_2 = 21\). As principais estatísticas descritivas são apresentadas a seguir.

    .
    Grupos
    Machos adultos e fêmeas jovens Fêmeas adultas
    Estatísticas (\(G_1\)) (\(G_2\))
    Tamanho da amostra 24     21    
    Média 62,2083 170,4286
    Variância 8.855,9112  43.498,4570 

    O teste de Shapiro-Wilk para cada amostra, em ambos os grupos, levou a rejeição da hipótese de normalidade. O teste de Brown e Forsythe (1974) também levou a rejeição da hipótese de homogeneidade de variâncias (resultados não apresentados). Assim, métodos robustos ou não paramétricos devem ser usados. No exemplo, vamos utilizar o método de Guo & Luh (2000). Vamos considerar \(\beta = 10\%\), para obtermos as médias aparadas e Winsorizada.

    Para a primeira amostra, com \(\beta = 10\%\), têm-se

    \begin{align*} m_1 =& \lfloor 24\times 0,10\rfloor = 2 &\textrm { e } && f_1 =& 24-2 \times 2= 20. \end{align*}

    Logo,

    \begin{align*} \bar {X}_{1,A}=& \dfrac {1}{f_1}\sum _{j=m_1+1}^{n_1-m_1} X_{1(j)}=\dfrac {X_{1(3)}+X_{1(4)}+\cdots +X_{1(22)}}{20}=42,25. \end{align*}

    A média winsorizada é

    \begin{align*} \bar {X}_{1,W}=& \dfrac {1}{n_1}\sum _{j=1}^{n_1} Z_{1(j)}\\ =&\dfrac {X_{1(3)}+X_{1(3)}+X_{1(3)}+X_{1,(4)}+ \cdots +X_{1(22)}+X_{1(22)}+X_{1(22)}}{24}\\ =&55,1250. \end{align*}

    A variância Winsorizada é \(S^2_{1,W}\) \(=\) 7117,611842 e, finalmente, \(\hat {\mu }_{1,W}\) \(=\) 633899,7984375.

    Para a segunda amostra, foram obtidos os seguintes resultados

    \begin{align*} m_2 =& \lfloor 21\times 0,10\rfloor = 2 &\textrm { e } && f_2 =& 21-2 \times 2= 17. \end{align*}

    Portanto,

    \begin{align*} \bar {X}_{2,A} =& 134,882353, &&& \bar {X}_{2,W}=& 150,333333,\\ S^2_{2,W}=& 29480,041666 &\textrm { e } && \hat {\mu }_{2,W}=& 2827653,385621. \end{align*}

    Logo, as demais quantidades são

    \begin{align*} \hat {\sigma }_{W}^2 =& 2090,00069, &&& \hat {\mu }_{W}=& 11369,017266,\\ \hat {\gamma } =& 0,118988032 &\textrm { e } && \nu =& 22,4449. \end{align*}

    Assim,

    \begin{align*} t_{0,025;\nu =22,4449} &=2,07149 &\textrm { e } && \beta _{0,025;\nu =22,4449}=& 1,90422. \end{align*}

    Finalmente, o intervalo de confiança é dado por

    \begin{align*} IC_{0,95}(\mu _1-\mu _2): \,& \left [-176,69, \,\, -2,57\right ]. \end{align*}

    Portanto, pode-se afirmar, com \(95\%\) de confiança, que as duas populações possuem médias diferentes. Pode-se inferir com \(95\%\) de confiança que o conteúdo médio de Coleóptera em mg da classe de machos adultos e de fêmeas jovens é inferior ao da classe de fêmeas adultas por uma quantidade que deve estar entre 2,57 mg e 176,69 mg. O intervalo obtido pelo método de permutação é [-201,7927, -9,2657] e por bootstrap é [-205,0380, -8,2043]. Assim, apesar de haver diferenças entre os limites destes métodos de computação intensiva com os obtidos aqui, essencialmente as conclusões de haver diferenças significativas entre os dois grupos é a mesma.

  • 11.2.4 Os resultados experimentais são apresentados a seguir.

    .
    Grupos Amostra
    155,76 282,00 197,34 297,00 115,50 126,72 119,46 29,04
    Normal 349,14 109,90 143,22 64,02 25,54 85,80 122,10 454,85
    252,78 122,10 655,38 13,88
    82,50 99,66 97,66 150,48 242,88 67,98 227,70 130,68
    Diabético 19,80 100,32 71,94 133,32 464,64 36,96 46,20 34,32
    73,26 17,82 43,56

    FONTE: Guo & Luh (2000).

    As principais estatísticas descritivas são apresentadas a seguir.

    .
    Grupos
    Estatísticas Normal Diabético
    Tamanho da amostra 20 19
    Média 186,076 112,720
    Variância 25.256,850 11.200,160
    Assimetria 1,629 2,301
    Curtose 2,949 6,376

    O intervalo de confiança de Guo & Luh (2000) com \(\beta =10\%\) é

    \begin{align*} IC_{0,95}(\mu _1-\mu _2): \,& \left [-5,8755, \,\, 132,1582\right ]. \end{align*}

    O intervalo de confiança usando os métodos de permutação e bootstrap só podem ser resolvidos computacionalmente. Em razão disso, fizemos um programa R para nos auxiliar nesta tarefa. O programa com os dados necessários para rodarmos este exemplo está apresentado a seguir.

    # bootstrap and permutation CI for two independent samples
    
    # Function to obtain permutation and bootstrap t
    # confidence interval for the difference of two
    # independent sample means. op= "boot" or "perm"
    # alpha <- 0.05
    ciBootPermMeanDiff <- function(x,y,B=1000,
                            op="boot",alpha = 0.05)
    {
      n1 <- length(x)
      n2 <- length(y)
      n <- n1 + n2
      xy <- c(x,y)
      xb <- mean(x)
      yb <- mean(y)
      s2x <- var(x)
      s2y <- var(y)
      tk <- function(xbyb, n1, n2)
      {
        xbb <- xbyb[1:n1]
        ybb <- xbyb[(n1+1):(n1+n2)]
        mxb <- mean(xbb)
        myb <- mean(ybb)
        vxb <- var(xbb)
        vyb <- var(ybb)
        t <- (mxb - myb) / sqrt(vxb/n1 + vyb/n2)
        return(t)
      }
      if (op == "boot")
      {
        res <- function(xy,n1,n2)
        {
          return(c(sample(xy, n1, replace = TRUE),
                 sample(xy, n2, replace = TRUE)))
        }
      } else
      if (op == "perm")
      {
        res <- function(xy,n1,n2)
        {
          res1 <- sample(1:(n1+n2), n1, replace = FALSE)
          res2 <- c(xy[-res1],xy[res1])
          return(res2)
        }
      }
      t <- matrix(rep(xy, each=B),B,n1+n2)
      t <- t(apply(t,1,res,n1,n2))# resamples
      t <- apply(t, 1, tk, n1, n2)
      ttab <- quantile(t, c(alpha/2, 1-alpha/2))
      lower <- xb-yb + ttab[1]*sqrt(s2x/n1+s2y/n2)
      upper <- xb-yb + ttab[2]*sqrt(s2x/n1+s2y/n2)
      return(list(lower=lower,upper=upper, ttab=ttab,op=op))
    }
    
    
    
    # Example 11.2 from the book
    x1 <- c(155.76, 282.00, 197.34, 297.00, 115.50, 126.72,
            119.46, 29.04, 349.14, 109.90, 143.22, 64.02,
            25.54, 85.80, 122.10, 454.85, 252.78, 122.10,
            655.38, 13.88)
    
    x2 <- c(82.50, 99.66, 97.66, 150.48, 242.88, 67.98,
            227.70, 130.68, 19.80, 100.32, 71.94, 133.32,
            464.64, 36.96, 46.20, 34.32, 73.26, 17.82,
            43.56)
    ciBootPermMeanDiff(x1,x2,B=25000,op="boot",alpha = 0.05)
    ciBootPermMeanDiff(x1,x2,B=25000,op="perm",alpha = 0.05)
    

    O resultado de ambos os procedimentos foram obtidos usando \(25000\) reamostragens (sem e com reposição). O intervalo de confiança de \(95\%\) para o método de permutação intensiva é

    \begin{align*} IC_{0,95}(\mu _1-\mu _2): \,& \left [-10,8802, \,\, 159,1098\right ] \end{align*} e o de bootstrap é

    \begin{align*} IC_{0,95}(\mu _1-\mu _2): \,& \left [-11,8355, \,\, 160,2370\right ]. \end{align*}

    Assim, os resultados dos três procedimentos concordam entre si, indicando que não há diferenças significativas entre o grupo normal e diabético em relação a fixação de nitrogênio do albúmen, pois os intervalos de \(95\%\) contém o valor \(0\).

  • 11.2.5 As médias dos teores de zinco de dois tratamentos (A e B) foram comparadas por um teste de hipótese para populações normais, como afirmado no exercício. Porém o teste de Shapiro-Wilk normalidade dentro de cada amostra de cada tratamento e o teste de homogeneidade de variâncias foram aplicados antes. Os resultados do teste de normalidade confirmaram o que havia sido mencionado no próprio anunciado, ou seja, ambas as amostras foram consideradas como provenientes de populações normais. O teste de homogeneidade de variâncias apresentou \(F_c\) \(=\) 2,046 e valor-\(p\) de 0,3012. Assim, não há evidências para rejeitar a hipótese de homogeneidade de variâncias no nível nominal de significância de 5%.

    As estimativas amostrais, as quais são apresentadas a seguir.

    .
    Espécies \(n_i\) \(\bar {X}_i\) \(S^2_i\)
    A 10 265,09 6475,4721
    B 10 255,98 3165,0062

    A hipótese de interesse é

    \begin{align*} H_0:\mu _1-\mu _2=&0 & \textrm { versus } && H_1:\mu _1-\mu _2\ne &0. \end{align*}

    Assim, como as variâncias são consideradas homogêneas, a variância comum \(S^2_p\) deve ser obtida, por se tratar de um melhor estimador da variância populacional comum \(\sigma ^2\), sendo dada por

    \begin{align*} S^2_p=& \dfrac {(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}=\dfrac {9\times 6475,4721+ 9\times 3165,0062}{10+10-2}\\ =&4820,2392. \end{align*}

    O valor calculado da estatística \(T_c\) é

    \begin{align*} t_c =& \dfrac {\bar {X}_1-\bar {X}_2-(\mu _{10}-\mu _{20})}{\sqrt {S^2_p \left (\frac {1}{n_1}+ \frac {1}{n_2} \right )}}=\dfrac {265,09-255,98}{4820,2392\left ( \dfrac {1}{10} + \dfrac {1}{10}\right )}\\ =&0,2934. \end{align*}

    O valor crítico \(t_{\alpha /2;\nu }\) \(=\) \(t_{0,025;\nu =18}\) com \(\nu \) \(=\) \(18\) graus de liberdade é igual a 2,1009. Assim, como \(t_c\) \(=\) 0,2934 está entre \(-\)2,1009 e 2,1009, a hipótese nula \(H_0\) não deve ser rejeitada no nível nominal de \(5\%\) de significância, inferindo-se que os tratamentos A e B não diferem em relação ao teor médio de zinco das tíbeas dos frangos de corte. Alternativamente, o valor-\(p\) computado foi de 0,7726, reforçando a conclusão alcançada. O programa R feito para facilitar a aplicação deste teste e outros que o usuário tenham interesse está apresentado a seguir com o presente exemplo como ilustração.

    # Test for two independent normal samples
    # alternative: "two.sided", "less" or "greater
    twoIndNormSamples.Test <- function(X, alpha = 0.05,
                        mud0=0, alternative="two.sided")
    {
      if (is.data.frame(X) == FALSE)
      Y <- as.data.frame(X) else Y <- X
      colnames(Y) <- c("group", "res")
      Y$group <- as.factor(Y$group)
      ni <- tapply(Y$res, Y$group, length)
      k <- length(ni)
      if (k != 2)
          stop("Number of samples must be 2!")
      n <- sum(ni)
      s2i <- tapply(Y$res, Y$group, var)
      xbi <- tapply(Y$res, Y$group, mean)
      fc <- s2i[1] / s2i[2]
      p.value <- pf(fc, ni[1]-1,ni[2]-1)
      p.value <- 2 * min(p.value,1-p.value)
      if (p.value > alpha) #homogeneity variances
      {
        hom = TRUE
        s2p <- sum((ni-1) * s2i)/ (n - k)
        nu <- n - 2
        tc <- (xbi[1] - xbi[2] - mud0) /
                         sqrt(s2p*(1/ni[1]+1/ni[2]))
        if (alternative == "two.sided")
          p.value <- 2 * (1 - pt(abs(tc), nu)) else
            p.value <- pt(tc, nu, lower.tail = (alternative == "less"))
      } else #heterogeneity variances
      {
        hom = FALSE
        nu <- (sum(s2i/ni))^2/sum((s2i/ni)^2/(ni-1))
        tc <- (xbi[1]-xbi[2]-mud0)/sqrt(sum(s2i/ni))
        if (alternative == "two.sided")
          p.value <- 2 * (1 - pt(abs(tc), nu)) else
            p.value <- pt(tc, nu, lower.tail = (alternative == "less"))
      }
      return(list(tc = tc, p.value = p.value, nu = nu,
                         homog=hom, alternative=alternative))
    }
    
    # Example: exercise 11.5.5
    x <- c(253.8,152.2,298.1,356.5,98.2,282.3,329.6,271.3,288.4,320.5)
    y<-c(284.5,376.0,183.4,304.7,231.5,263.5,257.7,208.6,244.9,205.0)
    X <- c(rep(c(1),times=length(x)), rep(c(2),times=length(y)),
           x,y)
    n <- length(x) + length(y)
    X <- matrix(X, n, 2)
    twoIndNormSamples.Test(X,alpha=0.05,mud0=0,alternative="two.sided")
    
  • 11.2.6 Os resultados de cada procedimento são detalhados a seguir. Em todos so casos as hipótese de interesse, nula e alternativa, são:

    \begin{align*} H_0:\mu _1-\mu _2=&0 & \textrm { versus } && H_1:\mu _1-\mu _2\ne &0. \end{align*}

    • a) Vamos iniciar com o teste de Guo & Luh (2000) considerando \(\beta =10\%\):

      Para a primeira amostra têm-se

      \begin{align*} m_1 =& \lfloor 10\times 0,10\rfloor = 1 &\textrm { e } && f_1 =& 10-2 \times 1=8. \end{align*}

      Logo,

      \begin{align*} \bar {X}_{1,A}=& \dfrac {1}{f_1}\sum _{j=m_1+1}^{n_1-m_1} X_{1(j)}\\ =&\dfrac {X_{1(2)}+X_{1(2)}+\cdots +X_{1(9)}}{8}\\ =&9,25. \end{align*}

      As principais estatísticas descritivas são apresentadas a seguir.

      .
      Regiões
      Estatísticas A B
      Tamanho da amostra 10 7
      Média 8,900 19,286
      Variância 23,656 16,905

      A média winsorizada é

      \begin{align*} \bar {X}_{1,W}=& \dfrac {1}{n_1}\sum _{j=1}^{n_1} Z_{1(j)}\\ =&\dfrac {X_{1(2)}+X_{1(2)}+X_{1(3)}+X_{1,(4)}+ \cdots +X_{1(10)}+X_{1(10)}}{10}\\ =&8,80. \end{align*}

      A variância Winsorizada é \(S^2_{1,W}\) \(=\) 25,0857 e, finalmente, \(\hat {\mu }_{1,W}\) \(=\) \(-\)94,32.

      Para a segunda amostra, foram obtidos os seguintes resultados

      \begin{align*} m_2 =& \lfloor 7\times 0,10\rfloor = 0 &\textrm { e } && f_2 =& 7-2 \times 0=7. \end{align*}

      Portanto,

      \begin{align*} \bar {X}_{2,A} =& 19,2857, &&& \bar {X}_{2,W}=& 20,\\ S^2_{2,W} =& 21,6667 &\textrm { e } && \hat {\mu }_{2,W}=& -30. \end{align*}

      Logo, as demais quantidades são

      \begin{align*} \hat {\sigma }_{W}^2 =& 6,2310, &&& \hat {\mu }_{W}=& -2,0860,\\ \hat {\gamma } =& -0,1341 &\textrm { e } && \nu =& 12,9355. \end{align*}

      Finalmente, tem-se que

      \begin{align*} \hat {\Gamma } =& \dfrac {\left (\bar {X}_{1,A}-\bar {X}_{2,A}\right )- \left (\mu _{10}-\mu _{20} \right )}{\hat {\sigma }_W}\\ =&\dfrac {9,25-19,2857-0}{\sqrt {6,2310}}\\ =& -4,0204. \end{align*}

      Assim,

      \begin{align*} t_{HW} =& \hat {\Gamma } + \dfrac {\hat {\gamma }}{6} + \dfrac {\hat {\gamma }\hat {\Gamma }^2}{3} + \dfrac {\hat {\gamma }^2\hat {\Gamma }^3}{27}\\ =& -4,8087. \end{align*}

      Como o valor de \(t\) tabelado é \(t_{0,025;\nu =12,9355}\) \(=\) 2,1615 com \(\nu \) \(=\) 12,9355 graus de liberdade, então \(H_0\) deve ser rejeitada, considerando um valor nominal de \(5\%\) de significância, pois o valor calculado em módulo é superior ao valor tabelado. O valor-\(p\) obtido foi 0,00035, o que ratifica essa conclusão. Assim, a região A possui menor número médio de formigueiros por hectare que a região B.

    • b) O segundo teste é o bootstrap com \(B=25000\) reamostragens. Para isso, usamos o programa anteriormente apresentado. O resultado levou um valor da estatística \(t_c\) \(=\) \(-\)4,75, cujo valor-\(p\) é 0,00024. Assim, novamente concluí-se que a região A possui número médio de formigueiros por hectare menor que o da região B, com \(95\%\) de confiança.

    • c) O terceiro teste é o permutação com \(B=25000\) reamostragens. Para isso, usamos o mesmo programa anteriormente apresentado e aplicado para o teste bootstrap. O resultado levou ao mesmo valor da estatística \(t_c\) \(=\) \(-\)4,75 do boostrap, mas cujo valor-\(p\) é 0,0000. Assim, novamente concluí-se que a região A possui número médio de formigueiros por hectare menor que o da região B, com \(95\%\) de confiança.

    • d) O quarto teste é o de Brunner & Munzel (2000), cuja hipótese anterior é equivalente a:

      \begin{align*} H_0:&\,\, p = \dfrac {1}{2} &\textrm { versus } && H_1:&\,\,p \ne \dfrac {1}{2}, \end{align*} em que \(p\) é o efeito relativo de tratamento.

      Os postos amostrais dentro de cada região são:

      .
      Região Postos do número de formigueiros de cada amostra
      A 5,5 1 2 10 3 7 9 8 4 5,5
      B 4 5 7 2 1 3 6

      Finalmente, os postos amostrais dentro de cada região, mas originários da amostra combinada são:

      .
      Região Postos do número de formigueiros da amostra combinada
      A 5,5 1 2 11,5 3 7 9,5 8 4 5,5
      B 14 15 17 11,5 9,5 13 16

      As médias dos postos para as duas amostras são

      \begin{align*} \bar {R}_{1.} =& 5,7 &\textrm { e } && \bar {R}_{2.} =& 13,71429. \end{align*} A estimativa do efeito relativo de região é \(\hat {p}\) \(=\) \(0,9714\), indicando, sem considerar a aleatoriedade, que a região \(1\) (A) tem média menor que a região \(2\) (B), pois a estimativa foi maior que \(0,5\). Isso deverá ser ou não confirmado pela significância com a aplicação do teste formal que se segue.

      A variância empírica é computada, para cada \(i\), por

      \begin{align*} S^2_i =& \dfrac {1}{n_i-1}\sum _{j=1}^{n_i}\left (R_{ij}-R^{(i)}_{ij}-\bar {R}_{i.}+ \dfrac {n_i+1}{2}\right )^2, \end{align*} resultando em

      \begin{align*} S^2_1 =& 0,2333 &\textrm { e } && S^2_2 =& 0,3214. \end{align*}

      Portanto, o estimador

      \begin{align*} \hat {\sigma }_i^2 =& \dfrac {S^2_i}{(n-n_i)^2}, \end{align*} fornece as seguintes estimativas

      \begin{align*} \hat {\sigma }_1^2=& 0,004762 &\textrm { e } && \hat {\sigma }_2^2=& 0,003214. \end{align*}

      O estimador da variância de \((\bar {R}_{2.}-\bar {R}_{1.})/\sqrt {n}\), dado por

      \begin{align*} \hat {\sigma }^2_n=& n\left (\dfrac {\hat {\sigma }_1}{n_1} + \dfrac {\hat {\sigma }_2}{n_2}\right ), \end{align*} fornece a seguinte estimativa \(\hat {\sigma }^2_n\) \(=\) \(0,015901\).

      Assim, o valor da estatística do teste é

      \begin{align*} W_n^{BF} =& \dfrac {\bar {R}_{2.}-\bar {R}_{1.}}{\hat {\sigma }_n\sqrt {n}}= \dfrac {13,71429-5,7}{\sqrt {17\times 0,01590136}}=15,41428. \end{align*}

      Pode-se obter o valor-\(p\), assumindo-se que o seu valor é uma realização de uma variável normal padrão. Dessa forma, considerando a hipótese alternativa (teste bilateral), o valor-\(p\) é dado por

      \begin{align*} \textrm {valor-}p =& 2\times (1-P(Z>15,4142))=0. \end{align*}

      No entanto, usando a melhor aproximação recomendada pelos autores, que é a \(t\) de Student, o valor-\(p\) também foi calculado. Os graus de liberdade dessa aproximação são

      \begin{align*} \nu =& \dfrac {\left (\dfrac {\hat {\sigma }^2_1}{n_1}+ \dfrac {\hat {\sigma }^2_2}{n_2}\right )^2}{\dfrac {\left (\dfrac {\hat {\sigma }^2_1}{n_1}\right )^2}{n_1-1} + \dfrac {\left (\dfrac {\hat {\sigma }^2_2}{n_2}\right )^2}{n_2-1}}\\ =& 14,5007. \end{align*}

      Assim, o valor-\(p\), usando a aproximação \(t\), é

      \begin{align*} \textrm {valor-}p =& 2\times (1-P(T>3,137467;\nu =18))=2,1541\times 10^{-10}. \end{align*}

      A hipótese de que as duas regiões possuam número médio de formigueiros por hectare deve ser rejeitada no nível nominal de \(5\%\), podendo-se afirmar que a região A tem menor número médio de formigueiros por hectare que a região B.

      Alternativamente ou até mesmo de forma complementar, o intervalo unilateral superior (upper), utilizando a aproximação \(t\) de Student, também foi obtido e é dado por \([\)0,9632, 0,9797\(]\). Como o valor hipotético, que é \(p\) \(=\) \(0,5\), que corresponde a não haver efeito relativo do região, não está no intervalo de confiança, a hipótese seria igualmente rejeitada no nível nominal de significância de \(5\%\). Assim, o valor real de \(p\) é superior a \(0,5\), devendo ser um valor entre 0,96 e 0,98, com \(95\%\) de confiança, indicando que a região A apresenta número médio de formigueiro menor que a da região B.

    • e) O quinto teste é o de Wilcoxon (1947) e Mann & Whitney (1947).

      Vamos combinar as duas amostras e ordenar a amostra resultante, mantendo a identificação da região de origem (\(1\) para a região A e \(2\) para a região B). Os valores assim obtidos estão apresentados a seguir.

      .
      Região \(X_{i(j)}\) \(R_{ij}\)
      1 0 1,0
      1 1 2,0
      1 8 3,0
      1 9 4,0
      1 10 5,5
      1 10 5,5
      1 11 7,0
      1 12 8,0
      1 13 9,5
      2 13 9,5
      1 15 11,5
      2 15 11,5
      2 19 13,0
      2 20 14,0
      2 21 15,0
      2 22 16,0
      2 25 17,0

      Os totais dos postos de cada clone são

      \begin{align*} R_{1.} =& 57 & \textrm { e } && R_{2.}=& 96. \end{align*}

      É fácil perceber que a soma dos dois valores deve totalizar \(n(n + 1)/2\) \(=\) \(17(17 + 1)/2\) \(=\) \(153\). Essa é uma forma de checar se os valores encontrados estão corretos. Assim, os valores das estatísticas de Wilcoxon são

      \begin{align*} W_{1} =& R_{1.}= 57 & \textrm { e } && W_2=& R_{2.}= 96. \end{align*}

      Os valores correspondentes da estatística \(U\) são

      \begin{align*} U_1=& W_1 - \dfrac {n_1(n_1+1)}{2} = 57 - \dfrac {10\times 11}{2}=2 \end{align*} e

      \begin{align*} U_2=& W_2 - \dfrac {n_2(n_2+1)}{2} = 96 - \dfrac {7\times 8}{2}=68. \end{align*}

      Consultando a Tabela A.11 para \(\alpha \) \(=\) \(5\%\) obtém-se o seguinte valor: \(U_{0,05}\) \(=\) \(56\). Logo, o valor \(U_{0,95}\) é obtido por \(U_{0,95}\) \(=\) \(n_1n_2 - U_{0,05}\) \(=\) \(10\times 7\) \(-\) \(56\) \(=\) \(14\). Como ocorreram empates, os valores tabelados representam apenas valores críticos aproximados da distribuição nula desse teste. Como o valor calculado \(U_1\) \(=\) \(2\) é inferior ao valor tabelado \(U_{0,95}\) \(=\) \(14\), a hipótese nula deve ser rejeitada, considerando o valor nominal de \(5\%\) de significância, ou seja, a região A tem número médio de formigueiros por hectare inferior ao da região B.

      A seguir, é apresentada a aproximação normal com e sem ajuste do escore normal padrão e considerando correção de continuidade. A média de \(U\) é dada para esse caso por

      \begin{align*} \mu _U=& \dfrac {n_1n_2}{2}=\dfrac {10\times 7}{2}=35. \end{align*}

      Observando os dados ordenados e os postos da tabela anterior, é possível perceber que ocorreram \(g = 3\) grupos de empates. Os valores do número de empates em cada um dos grupos são \(t_1\) \(=\) \(2\), \(t_2\) \(=\) \(2\) e \(t_3\) \(=\) \(2\). Assim,

      \begin{align*} \sum _{j=1}^{g} (t_j^3-t_j)=& (2^3-2)+(2^3-5)+(2^3-2)=18. \end{align*}

      Logo, a variância de \(U\) é igual a

      \begin{align*} \sigma ^2_U=& \dfrac {n_1n_2\left [n^3-n-\displaystyle \sum _{j=1}^{g} (t_j^3-t_j)\right ]}{12n(n-1)}\\ =& \dfrac {10\times 7\times (17^3-17-18)}{12\times 17\times (17-1)}\\ =& 104,6140. \end{align*}

      O valor de \(Z_c\), sem considerar o ajuste para uma melhor aproximação, é dado por

      \begin{align*} Z_c =& \dfrac {|U-\mu _U|-0,5}{\sigma _U} \\ =&\dfrac {|2-35|-0,5}{\sqrt {104,613970588}}\\ =&3,1775. \end{align*}

      O valor-\(p\) obtido da distribuição normal padrão por \(P(Z >\)3,1775\()\) é igual a 0,00149. Assim, como esse valor é menor que o valor nominal de significância adotado de \(0,05\), a hipótese nula \(H_0\) deve ser rejeitada. A conclusão obtida é a mesma anterior, ou seja, a região A tem número médio de formigueiros por hectare inferior ao da região B. Para melhorar a aproximação normal, é preciso calcular os valores doravante apresentados. Logo,

      \begin{align*} A=& \dfrac {20n_1n_2(n_1+n_2+1)}{n_1^2+n_2^2+n_1n_2+n_1+n_2}=106,7797, &&& B=& \dfrac {155Z_c^4-416Z_c^2-195}{42}=271,5676,\\ C=& 1+\dfrac {Z_c^2-3}{A}+\dfrac {B}{A^2}=1,0903 &\textrm { e }&& Z'_c=& C Z_c=3,4644. \end{align*}

      O valor-\(p\) para esse caso foi igual a 0,000531, que não alterou a conclusão anteriormente obtida, mas é mais confiável. Caso haja divergência, este é o resultado mais confiável.

      Em resumo, todos os procedimentos levaram à mesma conclusão. O teste considerando a distribuição normal e variâncias homogêneas levou a mesma conclusão (resultados não apresentados), mostrando a robustez do teste \(t\), quando se viola o pressuposto de normalidade.

  • 11.2.7 Para este exemplo temos duas situações. A primeira, em que as médias e variâncias são homogêneas e a segunda em que apenas as médias são homogêneas. Os detalhes de cada caso estão apresentados a seguir.

    • a) Para o primeiro caso em que as médias e as variâncias são homogêneas, o intervalos de confiança é:

      \begin{align*} IC_{1-\alpha }(\mu ):&\,\,\bar {X}_p \pm t_{\alpha /2;\nu }\sqrt {\dfrac {S^2_p}{n_1+n_2}}, \end{align*} em que

      \begin{align*} \bar {X}_p=& \dfrac {n_1\bar {X}_1+n_2\bar {X}_2}{n_1+n_2}, \end{align*} \(\nu =n_1+n_2-2\) e

      \begin{align*} S^2_p=& \dfrac {(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1+n_2-2}. \end{align*} Assim, temos

      \begin{align*} \bar {X}_p=& \dfrac {21\times 8,5+35\times 8,1}{21+35}\\ =& 8,25, \end{align*} \(\nu \) \(=\) \(54\) e

      \begin{align*} S^2_p=& \dfrac {(21-1)\times 1,87 + (35-1)\times 2,14}{21+35-2}\\ =& 2,04. \end{align*} Logo,

      \begin{align*} IC_{0,95}(\mu ):&\,\,8,25 \pm t_{0,025;54}\sqrt {\dfrac {2,04}{21+35}}\\ &\,\,8,25 \pm 2,0049\times 0,1909=\,\,8,25 \pm 0,3827\\ &[7,87,\,\,8,63]. \end{align*}

      Portanto, com \(95\%\) de confiança a média populacional comum é um potencial valor deste intervalo. A segunda opção apresentada no Livro, não será considerada aqui e fica como tarefa adicional ao leitor obtê-la.

    • b) Para o segundo caso em que as médias são homogêneas, mas as variâncias são diferentes, o intervalos de confiança pode ser obtido pela aproximação de Zar (1996) ou pelo intervalo exato apresentado no Livro. Vamos obter os dois intervalos de confiança, para ilustrarmos os procedimentos.

      • i) A aproximação de Zar (1996):

        O intervalo neste caso é:

        \begin{align*} IC_{1-\alpha }(\mu ):&\,\,\bar {X}_p \pm t_{\alpha /2;\nu }\sqrt {\dfrac {1}{2} \left (\dfrac {S^2_1}{n_1+n_2} + \dfrac {S^2_2}{n_1+n_2}\right )}, \end{align*} em que \(\nu \) é dado por

        \begin{align*} \nu =& \dfrac {\left (\dfrac {S^2_1}{n_1}+ \dfrac {S^2_2}{n_2}\right )^2}{ \dfrac {\left (\dfrac {S^2_1}{n_1} \right )^2}{n_1-1}+ \dfrac {\left (\dfrac {S^2_2}{n_2} \right )^2}{n_2-1}}. \end{align*} Os graus de liberdade são:

        \begin{align*} \nu =& \dfrac {\left (\dfrac {5,21}{30}+ \dfrac {1,98}{35}\right )^2}{ \dfrac {\left (\dfrac {5,21}{30} \right )^2}{30-1}+ \dfrac {\left (\dfrac {1,98}{35} \right )^2}{35-1}}\\ =& 46,7403. \end{align*} Logo, usando a mesma fórmula para obter \(\bar {X}_p\) temos

        \begin{align*} IC_{0,95}(\mu ):&\,\,12,5307 \pm t_{0,975;46,7403} \sqrt {\dfrac {1}{2} \left (\dfrac {5,21}{30+35} + \dfrac {1,98}{30+35}\right )}\\ &\,\,12,5307 \pm 2,0120\times 0,2352\\ &\,\,12,5307 \pm 0,4732\\ &\,\,[12,06,\,\,13,00]. \end{align*} Portanto, com \(95\%\) de confiança a média populacional comum é um potencial valor deste intervalo.

      • ii) A aproximação desenvolvida no Livro:

        O intervalo de confiança é dado por

        \begin{align*} IC_{1-\alpha }(\mu ):&\,\,\bar {X}_p \pm t_{\alpha /2;\nu }\sqrt {\dfrac {n_1 S^2_1+n_2 S^2_2}{(n_1+n_2)^2}}, \end{align*} em que graus de liberdade \(\nu \) são dados por

        \begin{align*} \nu =& \dfrac {(n_1-1)(n_2-1)(n_1 S^2_1+n_2 S^2_2)^2}{(n_1S^2_1)^2(n_2-1)+ (n_2S^2_2)^2(n_1-1)}, \end{align*} obtidos pela aplicação direta da fórmula de Satterthwaite (1946).

        Assim, os graus de liberdade são:

        \begin{align*} \nu =& \dfrac {(30-1)(35-1)(30\times 5,21+35\times 1,98)^2}{(30\times 5,21)^2\times (35-1)+ (35\times 1,98)^2\times (30-1)}\\ =& 51,741183. \end{align*} Logo, o intervalo de confiança é:

        \begin{align*} IC_{0,95}(\mu ):&\,\,12,5307 \pm t_{0,975;51,741183} \sqrt {\dfrac {30\times 5,21+35\times 1,98}{(30+35)^2}}\\ & \,\,12,5307 \pm 2,0069\times 0,231077\\ & \,\,12,5307 \pm 0,4637\\ &\,\,[12,06,\,\,12,99]. \end{align*} Portanto, com \(95\%\) de confiança a média populacional comum é um potencial valor deste intervalo. Este intervalo fornece, em estudos de simulação, probabilidade de cobertura exata, diferentemente da aproximação de Zar (1996).

  • 11.2.8 Para estimar a diferença de médias com margem de erro \(e\) \(=\) 0,5 t/ha e \(95\%\) de confiança devemos usar a expressão

    \begin{align*} n =& \dfrac {2 S^2_p t_{\alpha /2;\nu }^2}{e^2}, \end{align*} que deve ser resolvida iterativamente e pressupõe que as amostras de ambas as populações são iguais, ou seja, que \(n_1\) \(=\) \(n_2\) \(=\) \(n\). A variância combinada é \(S^2_p\) \(=\) 3,727. O valor inicial de \(n_1\) \(=\) \(10\) e \(n_2\) \(=\) \(12\), nos fornece um valor de \(\nu =20\) graus de liberdade inicial, se usarmos os valores da amostra piloto para isso. Assim, \(t_{0,025;\nu =20}\) \(=\) 2,085963. Logo,

    \begin{align*} n =& \dfrac {2 \times 3,727 \times 2,085963^2}{0,5^2}\\ =& 129,7367\cong 130. \end{align*}

    Como este valor é diferente do valor inicial médio (\(n\) \(=\) \(11\)), devemos repetir o processo com o novo valor, que resulta em \(t_{0,025;\nu =258}\) \(=\) 1,969201. Portanto,

    \begin{align*} n =& \dfrac {2 \times 3,727 \times 1,969201^2}{0,5^2}\\ =& 115,6197\cong 116. \end{align*}

    novamente o valor atual difere do anterior, logo, devemos repetir o processo com este novo valor de \(n\) e obter o próximo. O novo valor é

    \begin{align*} n =& \dfrac {2 \times 3,727 \times 1,970332^2}{0,5^2}\\ =& 115,7519\cong 116. \end{align*}

    Como o valor atual de \(n\) é igual ao anterior, interrompemos o processo. Vamos necessitar de \(n_1\) \(=\) \(n_2\) \(=\) \(116\) unidades amostrais de cada cultivar para estimarmos a diferença de média com margem de erro de 0,5 t/ha e confiança de \(95\%\).

  • 11.2.9 Considerando-se as variâncias iguais e tamanhos de amostras idênticos em um teste bilateral com \(n_1\) \(=\) \(n_2\) \(=\) \(116\), tem-se

    \begin{align*} t_{1-\beta ;\nu } \le & t_{\alpha /2;\nu } - \dfrac {d\sqrt {n}}{\sqrt {2S^2_p}}\\ & =t_{0,025;\nu =230}-\dfrac {0,3\times \sqrt {116}}{\sqrt {2\times 3,74}}\\ & = 1,9703-1,1814=0,7889. \end{align*}

    Assim, o valor máximo deve ser considerado, ou seja, \(t_{1-\beta ;\nu }\) \(=\) 0,7889. O poder \(1-\beta \) é obtido considerando o valor da probabilidade do seguinte evento \(P(T >\)0,7889\()\) da distribuição \(t\) de Student com \(\nu \) \(=\) \(230\) graus de liberdade. Logo, \(1-\beta \) \(\approx \) 0,2155.

    O poder aproximado do teste é de apenas 21,55% para detectar uma diferença de 0,3 t/ha com \(95\%\) de confiança. O valor exato do poder neste caso é de 21,64% (cálculos não apresentados). Se fossem considerados nos tamanhos amostrais da amostra piloto (\(n_1\) \(=\) \(10\) e \(n_2\) \(=\) \(12\)), então o poder exato seria de apenas 6,20%.

    Para responder a segunda parte, O valor de \(n\) é dado por \(n\) \(=\) \(n_1\) \(=\) \(n_2\) \(=\) \(116\), ou seja, ambas as amostras possuem o mesmo tamanho. Assim,

    \begin{align*} d \ge & \left (t_{\beta ;\nu }+t_{\alpha /2;\nu }\right ) \sqrt {\dfrac {2S^2_p}{n}}\\ =& (t_{0,05;\nu =230}+ t_{0,025;\nu =230})\sqrt {\dfrac {2\times 3,74}{116}}\\ =& 0,92 \textrm { t/ha.} \end{align*}

    Dessa forma, uma diferença mínima significativa de \(0,92\) t/ha seria detectada com \(95\%\) de confiança e \(95\%\) de poder (\(\beta \) \(=\) \(0,05\)). Essa é uma expressiva diferença em termos práticos, haja vista a variabilidade presente na produtividade e os grandes valores de poder e confiança fixados. Isso indica que os tamanhos de amostras que foram utilizados são bastante inexpressivos (pequenos) para detectar diferenças de médias de pequenas magnitudes com elevado poder.

  • 11.2.10 Os intervalos de \(95\%\) e \(99\%\) de confiança para o presente caso são apresentados na sequência. Os dados fornecidos são:

    .
    Fungo Região \(1\) Região \(2\)
    Doentes 10 50
    Sadios 290 250
    Total 300 300

    As estimativas pontuais para as duas regiões usando os dois estimadores apresentados são

    \begin{align*} \hat {p}_1 =& \dfrac {10}{300}=0,033333 & \textrm { e } && \tilde {p}_1 =& \dfrac {10+1}{300+2}=0,036424,\\ \hat {p}_2 =& \dfrac {50}{300}=0,166667 & \textrm { e } && \tilde {p}_2 =& \dfrac {50+1}{300+2}=0,168874. \end{align*}

    • a) Intervalo de Wald (aproximação normal)

      \begin{align*} IC_{0,95}(\Delta ): &\,\, \hat {p}_1-\hat {p}_2 \pm Z_{\alpha /2} \sqrt {\dfrac {\hat {p}_1(1-\hat {p}_1)}{n_1} + \dfrac {\hat {p}_2(1-\hat {p}_2)}{n_2}}\\ & = 0,0333-0,1667\pm 1,96\sqrt {\dfrac {0,0333\times (1-0,0333)}{300} + \dfrac {0,1667\times (1-0,1667)}{300}}\\ &= -0,1333\pm 0,0468 =[-0,1801,\, -0,0865]. \end{align*}

      O intervalo de \(99\%\) de confiança, usando procedimento análogo ao anterior, é \([-\)0,1949,  \(-\)0,0718\(]\).

    • b) Intervalo normal add-\(4\)

      \begin{align*} IC_{1-\alpha }(\Delta ): &\,\, \tilde {p}_1-\tilde {p}_2 \pm Z_{\alpha /2} \sqrt {\dfrac {\tilde {p}_1(1-\tilde {p}_1)}{n_1+2} + \dfrac {\tilde {p}_2(1-\tilde {p}_2)}{n_2+2}}\\ &= 0,0364-0,1689 \pm 1,96 \sqrt {\dfrac {0,0364\times (1-0,0364)}{300+2} + \dfrac {0,1689\times (1-0,1689)}{300+2}}\\ & = -0,1325\pm 0,0472 = [-0,1797,\, -0,0852]. \end{align*}

      O intervalo de \(99\%\) de confiança, usando procedimento análogo ao anterior, é \([-\)0,1945,  \(-\)0,0704\(]\).

    • c) Intervalo \(T2\)

      Para calcular o intervalo \(T2\), é necessário obter os graus de liberdade de \(t\) de Student primeiro. Sabemos que \(\hat {V}(\tilde {p}_1)\) \(=\) \(0,0364\times (1-0,0364)/(300+2)\) \(=\) 0,0001162157 e \(\hat {V}(\tilde {p}_2)\) \(=\) 0,0004647539. A expressão utilizada para obter os graus de liberdade é

      \begin{align*} \nu \approx & \dfrac {2\left [\hat {V}(\tilde {p}_1)+ \hat {V}(\tilde {p}_2) \right ]^2}{\hat {V}\left (\hat {V}(\tilde {p}_1)\right ) + \hat {V}\left (\hat {V}(\tilde {p}_2)\right )} = \dfrac {2\times [0,0001162157 + 0,0004647539]^2}{\hat {V}\left (\hat {V}(\tilde {p}_1)\right ) + \hat {V}\left (\hat {V}(\tilde {p}_2)\right )}\\ \approx & \dfrac {2\times 0,0005809696^2}{\hat {V}\left (\hat {V}(\tilde {p}_1)\right ) + \hat {V}\left (\hat {V}(\tilde {p}_2)\right )}. \end{align*}

      Mas, \(\hat {V}(\hat {V}(\tilde {p}_i))\), sem reproduzir os cálculos aqui, é igual a

      \begin{align*} \hat {V}\left (\hat {V}(\tilde {p}_1)\right ) =& 1,088404\times 10^{-9} &\textrm { e }&& \hat {V}\left (\hat {V}(\tilde {p}_2)\right ) =& 2,22483\times 10^{-9}. \end{align*}

      Assim,

      \begin{align*} \nu \approx & \dfrac {2\times 0,0005809696^2}{1,088404\times 10^{-9}+ 2,22483\times 10^{-9}} = 203,744. \end{align*}

      O valor do quantil superior da distribuição \(t\) de Student com \(\nu \) \(=\) \(203,744\) graus de liberdade é igual a \(t_{0,025;\nu =203,744}\) \(=\) \(1,971676\). O intervalo de confiança é, portanto

      \begin{align*} IC_{1-\alpha }(\Delta ): &\,\, \tilde {p}_1-\tilde {p}_2 \pm t_{\alpha /2;\nu } \sqrt {\dfrac {\tilde {p}_1(1-\tilde {p}_1)}{n_1+2} + \dfrac {\tilde {p}_2(1-\tilde {p}_2)}{n_2+2}}\\ &= 0,0364-0,1689 \pm 1,971676 \sqrt {\dfrac {0,0364(1-0,0364)}{300+2} + \dfrac {0,1689(1-0,1689)}{300+2}}\\ & = -0,1325\pm 0,0475 = [-0,1800,\, -0,0849]. \end{align*}

      O intervalo de \(99\%\) de confiança, usando procedimento análogo ao anterior, é \([-\)0,1951,  \(-\)0,0698\(]\).

    • d) Intervalos bootstrap de Conlon & Thomas (1990) e adaptado de Agresti & Caffoo (2000) neste Livro:

      As estimativas pontuais usadas para estimar a função de probabilidade conjunta das proporções binomiais das duas regiões são: a) \(\hat {p}_1\) \(=\) 0,033333 e \(\hat {p}_2\) \(=\) 0,166667 para o caso do intervalo bootstrap de Conlon & Thomas (1990); e b) \(\tilde {p}_1\) \(=\) 0,036424 e \(\tilde {p}_2\) \(=\) 0,168874 para o caso do intervalo bootstrap de Agresti & Caffoo (2000). São apresentadas um resumo das distribuições bootstrap de \(\hat {d}\) utilizando os dois métodos. Os valores foram ordenados e uma amostra da distribuição nula bootstrap de tamanho \(10000\) foi considerada. Para gerar os valores de \(\hat {d}\) para uma das etapas, são gerados dois números binomiais considerando probabilidade de sucesso igual a 0,0133333 com \(n_1\) \(=\) \(300\) e probabilidade de sucesso \(0,166667\) com \(n_2\) \(=\) \(300\) para o método de Conlon e Thomas e dois números binomiais considerando probabilidade de sucesso igual a 0,036424 com \(n_1\) \(=\) \(300\) e probabilidade de sucesso 0,168874 com \(n_2\) \(=\) \(300\) para o método de Agresti e Caffo. Em seguida, para cada método é calculado o valor de \(d\) da mesma forma, \(\hat {d}\) \(=\) \(y_1/n_1-y_2/n_2\). O processo é repetido e esses valores são ordenados. Um sumário de como são os resultados obtidos é apresentado a seguir.

      .
      Amostra \(j\) \(\hat {d}\) de Conlon e Thomas \(\hat {d}\) de Agresti e Caffo
      1 -0,22333 -0,23000
      2 -0,21667 -0,22667
      3 -0,21333 -0,22333
      \(\vdots \) \(\vdots \) \(\vdots \)
      9.999 -0,05000 -0,04667
      10.000 -0,04333 -0,04667

      Os quantis \(2,5\%\) e \(97,5\%\) foram obtidos de cada distribuição e os intervalos de \(95\%\) confiança gerados são os seguintes, que foram idênticos nos dois casos bootstrap:

      Conlon e Thomas: \(IC_{0,95}(\Delta )\): \([-\)0,180000,  -0,086667\(]\)

      O intervalo de \(99\%\) de confiança, usando procedimento análogo ao anterior, é \([-\)0,1967,  \(-\)0,0733\(]\).

      Agresti e Caffo:        \(IC_{0,95}(\Delta )\): \([-\)0,180000,  -0,086667\(]\)

      O intervalo de \(99\%\) de confiança, usando procedimento análogo ao anterior, é \([-\)0,1967,  \(-\)0,0733\(]\).

    Resultados relativamente próximos entre todos os métodos foram obtidos, indicando que a proporção de doentes na região \(1\) é inferior a da região \(2\), tanto para \(95\%\) quanto para \(99\%\) de confiança.

  • 11.2.11 A hipótese nula é

    \begin{align*} H_0:\,\,\Delta =& p_1 - p_2=\Delta _0=0 &\textrm { e } && H_1:\,\,\Delta \ne & 0. \end{align*}

    As estimativas de \(p_1\) e \(p_2\), para o teste de Wald, são

    \begin{align*} \hat {p}_1 =& \dfrac {y_1}{n_1}=\dfrac {435}{1200}=0,3625 & \textrm { e } && \hat {p}_2 =& \dfrac {y_2}{n_2}=\dfrac {389}{1250}=0,3112. \end{align*}

    A estimativa de \(p\) comum, também o teste de Wald, é dada por

    \begin{align*} \hat {p} =& \dfrac {n_1\hat {p}_1+n_2\hat {p}_2}{n+1+n_2}=\dfrac {y_1+y_2}{n_1+n_2} = \dfrac {435+389}{1200+1250}=0,3363265. \end{align*}

    Da mesma forma, as estimativas de \(p_1\), \(p_2\) e de \(p\) comum, para a aproximação de Agresti & Caffoo (2000) e a modificação do teste de Agresti & Caffoo (2000), são

    \begin{align*} \tilde {p}_1 =& \dfrac {y_1+1}{n_1+2}=\dfrac {435+1}{1200+2}=0,3627288, &&& \tilde {p}_2 =& \dfrac {y_2+1}{n_2+2}=\dfrac {389+1}{1250+2}=0,3115016\\ \tilde {p} =& \dfrac {y_1+y_2+2}{n_1+n_2+4}=\dfrac {435+389 + 2}{1200+1250+4}=0,3365933. &&& & \end{align*}

    • a) Teste de Wald

      Para testar a hipótese \(H_0\), calcula-se

      \begin{align*} Z_c=& \dfrac {\hat {p}_1-\hat {p}_2}{\sqrt {\dfrac {\hat {p}(1-\hat {p})(n_1+ n_2)}{n_1n_2}}}\\ =& \dfrac {0,3625-0,3112}{\sqrt {\dfrac {0,3363265\times (1-0,3363265)\times (1200+1250)}{1200\times 1250}}}\\ =& 2,6867. \end{align*}

      O valor-\(p\) é dado por

      valor-\(p\) = \(P(Z > |2,6867|)\) \(=\) \(2\times 0,003607\) \(=\) \(0,0072\).

      Como o valor-\(p\) é menor que \(0,05\), conclui-se que existem evidências significativas para rejeitar a hipótese nula de igualdade da incidência de bifurcação nas duas variedades. A variedade \(1\) tem proporção de bifurcação inferior ao da variedade \(2\).

    • b) Teste de Agresti & Caffoo (2000)

      Para testar a hipótese \(H_0\), inicialmente calcula-se

      \begin{align*} Z_c=& \dfrac {\tilde {p}_1-\tilde {p}_2}{\sqrt {\dfrac {\tilde {p}(1-\tilde {p})(n_1+ n_2+4)}{(n_1+2)(n_2+2}}} = \dfrac {0,3627288 - 0,3115016}{\sqrt {\dfrac {0,3365933\times (1-0,3365933)\times (1200+1250+4)}{(1200+2)\times (1250+2)}}}\\ =& 2,684571. \end{align*}

      O valor-\(p\) é dado por

      valor-\(p\) \(=\) \(P(Z > |2,684571|)\) \(=\) \(2 \times \) 000363 \(=\) 0,00726.

      Como o valor-\(p\) é menor que \(0,05\), conclui-se que existem evidências significativas para rejeitar a hipótese nula de igualdade da incidência de bifurcação nas duas variedades. A variedade \(1\) tem proporção de bifurcação inferior ao da variedade \(2\). Mesma conclusão obtida anteriormente pelo método de Wald.

    • c) Teste modificado de Agresti & Caffoo (2000)

      Para testar a hipótese \(H_0\) utilizando esse novo método, calcula-se inicialmente

      \begin{align*} T_c=& \dfrac {\tilde {p}_1-\tilde {p}_2}{\sqrt {\dfrac {\tilde {p}(1-\tilde {p})(n_1+ n_2+4)}{(n_1+2)(n_2+2}}} \\ =& \dfrac {0,3627288 - 0,3115016}{\sqrt {\dfrac {0,3365933\times (1-0,3365933)\times (1200+1250+4)}{(1200+2)\times (1250+2)}}}\\ =& 2,684571, \end{align*} que é o mesmo valor do caso anterior. Também é necessário obter

      \begin{align*} \hat {V}\left (\hat {V}(\tilde {p}_1-\tilde {p}_2)\right ) =& 2,593191\times 10^{-11}. \end{align*}

      Os graus de liberdade são dados por

      \begin{align*} \nu \approx & \dfrac {2\left [\hat {V}(\tilde {p}_1-\tilde {p}_2) \right ]^2}{\hat {V}\left (\hat {V}(\tilde {p}_1-\tilde {p}_2)\right )}\\ & =\dfrac {2\times 0,0003641255^2}{2,593191\times 10^{-11}}\\ &=10225,81. \end{align*}

      O valor-\(p\) é dado por

      valor-\(p\) \(=\) \(P(T > |2,684571|;\nu =10225,81)\) \(=\) \(2 \times 0,003636996\) \(=\) 0,00727.

      Como o valor-\(p\) é menor que \(0,05\), conclui-se que existem evidências significativas para rejeitar a hipótese nula de igualdade da incidência de bifurcação nas duas variedades. A variedade \(1\) tem proporção de bifurcação inferior ao da variedade \(2\). Mesma conclusão obtida pelos métodos apresentados anteriormente. O elevado valor dos graus de liberdade indica que a aproximação normal do item (b) é boa.

  • 11.2.12 em ambos os casos, assumiu-se normalidade e, portanto, podemos aplicar o teste \(F\) em ambos os casos. A hipótese nula nos dois casos é:

    \begin{align*} H_0: \sigma ^2_1 =& \sigma ^2_2, \end{align*} em que os índices \(1\) e \(2\) referem-se às populações \(A\) e \(B\), no primeiro caso e às populações \(C\) e \(D\), no segundo caso, respectivamente.

    • a) No primeiro caso, temos \(n_1\) \(=\) \(21\), \(S^2_1\) \(=\) 1,87, \(n_2\) \(=\) \(35\) e \(S^2_2\) \(=\) 2,14, então \(F_c\) é dado por

      \begin{align*} F_c=& \dfrac {S^2_1}{S^2_2}=\dfrac {1,87}{2,14}=0,8738, \end{align*} associado com \(\nu _1 = 20\) graus de liberdade da variância do numerador da expressão (população \(1\)) e \(\nu _2 = 34\) graus de liberdade associados ao denominador da expressão (população \(2\)). Assim, tem-se

      \begin{align*} \textrm {valor-}p =& 2\times \min (P(F\le 0,8738;\nu _1=20,\nu _2=34),P(F\ge 0,8738;\nu _1=20,\nu _2=34))\\ =& 2\times \min (0,382653, 0,617347)\\ =&0,765306. \end{align*}

      Como o valor-\(p\) é superior ao valor nominal de \(5\%\), conclui-se que não existem evidências significativas para rejeitar a hipótese nula de igualdade de variâncias populacionais. Portanto, este resultado corrobora a afirmativa do referido exercício de considerar as variâncias homogêneas.

    • b) No segundo caso, temos \(n_1\) \(=\) \(30\), \(S^2_1\) \(=\) 5,21, \(n_2\) \(=\) \(35\) e \(S^2_2\) \(=\) 1,98, então \(F_c\) é dado por

      \begin{align*} F_c=& \dfrac {S^2_1}{S^2_2}=\dfrac {5,21}{1,98}=2,6313, \end{align*} associado com \(\nu _1 = 29\) graus de liberdade da variância do numerador da expressão (população \(1\)) e \(\nu _2 = 34\) graus de liberdade associados ao denominador da expressão (população \(2\)). Assim, tem-se

      \begin{align*} \textrm {valor-}p =& 2\times \min (P(F\le 2,6313;\nu _1=29,\nu _2=34),P(F\ge 2,6313;\nu _1=29,\nu _2=34))\\ =& 2\times \min (0,9963, 0,0037)\\ =&0,0074. \end{align*}

      Como o valor-\(p\) é inferior ao valor nominal de \(5\%\), conclui-se que não existem evidências significativas para rejeitar a hipótese nula de igualdade de variâncias populacionais. Portanto, este resultado corrobora a afirmativa do referido exercício de considerar as variâncias heterogêneas.

  • 11.2.13 Os resultados amostrais em t/ha estão apresentados a seguir.

    .
    População \(n_i\) \(\bar {X}_i\) (t/ha) \(S^2_i\) \(K_i=S_i/\bar {X}_i\)
    \(F_1\) 10 265,09 6475,472 0,3036
    \(F_2\) 10 255,98 3165,006 0,2198

    A hipótese nula é \(H_0\): \(\kappa _1\) \(=\) \(\kappa _2\) \(=\) \(\kappa \). Assim, o estimador combinado do coeficiente de variação comum de ambas as populações considerando a hipótese nula como verdadeira é

    \begin{align*} K_p =& \dfrac {n_1K_1+n_2K_2}{n_1+n_2}\\ =&\dfrac {10\times 0,3036+10\times 0,2198}{35}\\ =0,2617. \end{align*}

    Utilizando a aproximação qui-quadrado, uma vez que é equivalente ao teste usando a aproximação normal, obtém-se

    \begin{align*} \chi ^2_c =& \sum _{i=1}^{q} \dfrac {n_i(K_i-K_p)^2}{K_p^2(K_p^2+0,5)}\\ =& \dfrac {15\times (0,3036-0,2617)^2+20\times (0,2198-0,2617)^2}{0,2617^2\times (0,2617^2+0,5)}\\ =&0,9017. \end{align*}

    O valor-\(p\), considerando \(\nu \) \(=\) \(1\) grau de liberdade, é dado por

    \begin{align*} \textrm {valor-}p =& P(\chi ^2 \ge 0,9017;\nu =1)=0,3423. \end{align*}

    Portanto, pelo teste qui-quadrado pode-se inferir que não existem evidências significativas no valor nominal de \(5\%\) de que a hipótese nula de igualdade dos coeficientes de variação dos dois tratamento na constituição química na tíbia das aves deva ser rejeitada.