EB

Estatı́stica Básica

\(\newcommand{\footnotename}{footnote}\) \(\def \LWRfootnote {1}\) \(\newcommand {\footnote }[2][\LWRfootnote ]{{}^{\mathrm {#1}}}\) \(\newcommand {\footnotemark }[1][\LWRfootnote ]{{}^{\mathrm {#1}}}\) \(\let \LWRorighspace \hspace \) \(\renewcommand {\hspace }{\ifstar \LWRorighspace \LWRorighspace }\) \(\newcommand {\mathnormal }[1]{{#1}}\) \(\newcommand \ensuremath [1]{#1}\) \(\newcommand {\LWRframebox }[2][]{\fbox {#2}} \newcommand {\framebox }[1][]{\LWRframebox } \) \(\newcommand {\setlength }[2]{}\) \(\newcommand {\addtolength }[2]{}\) \(\newcommand {\setcounter }[2]{}\) \(\newcommand {\addtocounter }[2]{}\) \(\newcommand {\arabic }[1]{}\) \(\newcommand {\number }[1]{}\) \(\newcommand {\noalign }[1]{\text {#1}\notag \\}\) \(\newcommand {\cline }[1]{}\) \(\newcommand {\directlua }[1]{\text {(directlua)}}\) \(\newcommand {\luatexdirectlua }[1]{\text {(directlua)}}\) \(\newcommand {\protect }{}\) \(\def \LWRabsorbnumber #1 {}\) \(\def \LWRabsorbquotenumber "#1 {}\) \(\newcommand {\LWRabsorboption }[1][]{}\) \(\newcommand {\LWRabsorbtwooptions }[1][]{\LWRabsorboption }\) \(\def \mathchar {\ifnextchar "\LWRabsorbquotenumber \LWRabsorbnumber }\) \(\def \mathcode #1={\mathchar }\) \(\let \delcode \mathcode \) \(\let \delimiter \mathchar \) \(\def \oe {\unicode {x0153}}\) \(\def \OE {\unicode {x0152}}\) \(\def \ae {\unicode {x00E6}}\) \(\def \AE {\unicode {x00C6}}\) \(\def \aa {\unicode {x00E5}}\) \(\def \AA {\unicode {x00C5}}\) \(\def \o {\unicode {x00F8}}\) \(\def \O {\unicode {x00D8}}\) \(\def \l {\unicode {x0142}}\) \(\def \L {\unicode {x0141}}\) \(\def \ss {\unicode {x00DF}}\) \(\def \SS {\unicode {x1E9E}}\) \(\def \dag {\unicode {x2020}}\) \(\def \ddag {\unicode {x2021}}\) \(\def \P {\unicode {x00B6}}\) \(\def \copyright {\unicode {x00A9}}\) \(\def \pounds {\unicode {x00A3}}\) \(\let \LWRref \ref \) \(\renewcommand {\ref }{\ifstar \LWRref \LWRref }\) \( \newcommand {\multicolumn }[3]{#3}\) \(\require {textcomp}\) \(\newcommand {\intertext }[1]{\text {#1}\notag \\}\) \(\let \Hat \hat \) \(\let \Check \check \) \(\let \Tilde \tilde \) \(\let \Acute \acute \) \(\let \Grave \grave \) \(\let \Dot \dot \) \(\let \Ddot \ddot \) \(\let \Breve \breve \) \(\let \Bar \bar \) \(\let \Vec \vec \) \(\require {mathtools}\) \(\newenvironment {crampedsubarray}[1]{}{}\) \(\newcommand {\smashoperator }[2][]{#2\limits }\) \(\newcommand {\SwapAboveDisplaySkip }{}\) \(\newcommand {\LaTeXunderbrace }[1]{\underbrace {#1}}\) \(\newcommand {\LaTeXoverbrace }[1]{\overbrace {#1}}\) \(\newcommand {\LWRmultlined }[1][]{\begin {multline*}}\) \(\newenvironment {multlined}[1][]{\LWRmultlined }{\end {multline*}}\) \(\let \LWRorigshoveleft \shoveleft \) \(\renewcommand {\shoveleft }[1][]{\LWRorigshoveleft }\) \(\let \LWRorigshoveright \shoveright \) \(\renewcommand {\shoveright }[1][]{\LWRorigshoveright }\) \(\newcommand {\shortintertext }[1]{\text {#1}\notag \\}\) \(\newcommand {\vcentcolon }{\mathrel {\unicode {x2236}}}\) \(\newcommand {\bm }[1]{\boldsymbol {#1}}\) \(\require {cancel}\) \(\newcommand {\firsthdashline }[1][]{\hdashline }\) \(\let \lasthdashline \firsthdashline \) \(\let \cdashline \cline \) \(\require {colortbl}\) \(\let \LWRorigcolumncolor \columncolor \) \(\renewcommand {\columncolor }[2][named]{\LWRorigcolumncolor [#1]{#2}\LWRabsorbtwooptions }\) \(\let \LWRorigrowcolor \rowcolor \) \(\renewcommand {\rowcolor }[2][named]{\LWRorigrowcolor [#1]{#2}\LWRabsorbtwooptions }\) \(\let \LWRorigcellcolor \cellcolor \) \(\renewcommand {\cellcolor }[2][named]{\LWRorigcellcolor [#1]{#2}\LWRabsorbtwooptions }\) \(\newcommand {\tcbset }[1]{}\) \(\newcommand {\tcbsetforeverylayer }[1]{}\) \(\newcommand {\tcbox }[2][]{\boxed {\text {#2}}}\) \(\newcommand {\tcboxfit }[2][]{\boxed {#2}}\) \(\newcommand {\tcblower }{}\) \(\newcommand {\tcbline }{}\) \(\newcommand {\tcbtitle }{}\) \(\newcommand {\tcbsubtitle [2][]{\mathrm {#2}}}\) \(\newcommand {\tcboxmath }[2][]{\boxed {#2}}\) \(\newcommand {\tcbhighmath }[2][]{\boxed {#2}}\)

12.2 Resolução

  • 12.2.1 Justifica-se a aplicação de um teste de hipótese para dados emparelhados pelo fato de as amostras de ambas as variedades terem sido obtidas no mesmo local, considerando várias locais para o estudo como um todo. Assim, formaram-se \(n = 10\) blocos (locais) compostos de um conjunto de duas unidades experimentais com alta uniformidade entre si. A cada par de unidades amostral em cada local, foram casualizadas ambas as variedades.

    As hipóteses de interesse e alternativa são dadas por

    \begin{align*} H_0:&\,\,\mu _D\le 10 & \textrm { versus } && H_1:&\,\,\mu _D>10. \end{align*}

    A estatística adequada para testar essa hipótese é dada por

    \begin{align*} T_c =& \dfrac {\bar {D}-\mu _0}{\dfrac {S_D}{\sqrt {n}}}\\ =&\dfrac {15,13-10}{ \dfrac {4,9004}{\sqrt {10}}}\\ =&3,3105, \end{align*} associada à \(\nu \) \(=\) \(10-1\) \(=\) \(9\) graus de liberdade.

    O valor-\(p\) para a hipótese unilateral é \(P(T >\) 3,3105;\(\nu =9)\) \(=\) 0,0045. Assim, existem evidências significativas a \(5\%\) de que a hipótese de que a variedade B produza em média \(10\) t/ha ou menos que a variedade A. Portanto, a variedade B é mais produtiva que a variedade A por uma quantidade que supera \(10\) t/ha. O intervalo de\(95\%\) de confiança unilateral à direita (hipótese alternativa “maior que”) é \([\)15,13, \(\infty )\). Assim, o limite inferior para a diferença pode ser mais precisamente com o resultado deste intervalo, complementando o resultado do teste.

    Complementando a resposta à pergunta feita no exercício, a qual respondemos no início, podemos fazer uma analogia do teste \(t\) para amostras emparelhadas com a análise de variância em delineamento em blocos completos casualizados. Se considerarmos dois tratamentos (as variedades) e os locais (unidades amostrais) como blocos, o teste \(F\) é equivalente ao test \(t\) que apresentamos. O valor da estatística \(F\) é o quadrado do valor da estatística \(t\) e o valor-\(p\) é o mesmo em ambos os casos, levando a mesma conclusão.

  • 12.2.2 Vamos considerar o teste \(t\) para o caso normal, mas também os testes não paramétricos. Vamos considerar que a concordância entre os laboratórios refere-se à homogeneidade de suas médias ou de suas medianas. Assim, vamos aplicar três testes, que são detalhados a seguir.

    • a) Teste para a igualdade de médias supondo normalidade bivariada da distribuição conjunta dos laboratórios ou normalidade da diferença:

      As hipóteses de interesse e alternativa são dadas por

      \begin{align*} H_0:&\,\,\mu _D\le 0 & \textrm { versus } && H_1:&\,\,\mu _D> 0. \end{align*}

      A estatística adequada para testar essa hipótese é dada por

      \begin{align*} T_c =& \dfrac {\bar {D}-\mu _0}{\dfrac {S_D}{\sqrt {n}}}\\ =&\dfrac {-13,27273}{ \dfrac {20,46016}{\sqrt {11}}}\\ =&-2,15153, \end{align*} associada à \(\nu \) \(=\) \(11-1\) \(=\) \(10\) graus de liberdade.

      O valor-\(p\) para a hipótese bilateral é \(2P(T >\)2,15153;\(\nu =10)\) \(=\) 0,0569. Assim, não existem evidências significativas a \(5\%\) para rejeitar a hipótese de homogeneidade dos laboratórios.

    • b) Teste do sinal exato

      A hipótese nula de homogeneidade entre os laboratórios e a hipótese alternativa são dadas por

      \begin{align*} H_0:&\,\,\mu _D\ge 0 & \textrm { versus } && H_1:&\,\,\mu _D < 0. \end{align*}

      Nesse caso, \(\mu _0\) \(=\) \(0\) e as diferenças foram obtidas por \(D_j\) \(=\) \(X_{2j}-X_{1j}-\mu _0\) \(=\) \(X_{2j}-X_{1j}\), para \(j=1\), \(2\), \(\cdots \), \(n\). Como nenhuma diferença foi igual a zero, o tamanho efetivo da amostra \(n_t\) foi igual a \(11\). O valor de \(n^+\) é \(4\) e de \(n^-\) é \(7\). O valor de \(S\) é \(s\) \(=\) \(n^+\) \(=\) \(4\).

      Se \(H_0\) é verdadeira, então espera-se \(E(S)\) \(=\) 5,5. O valor-\(p\) pode, de forma exata, ser obtido alternativa pela distribuição \(F\). O valor da estatística é

      \begin{align*} F_c =& \dfrac {s+1}{n_t-s}\\ =&\dfrac {4+1}{11-4}=\dfrac {5}{7}\\ =&0,7142857, \end{align*} com \(\nu _1\) \(=\) \(2(n_t-s)\) \(=\) \(2\times (11-4)\) \(=\) \(14\) e \(\nu _2\) \(=\) \(2(s+1)\) \(=\) \(2(4+1)\) \(=\) \(10\) graus de liberdade. O valor-\(p\) é

      \begin{align*} \textrm {valor-}p =& P(S\le 4)=2P(F\le 0,7142857;\nu _1=14,\nu _2=10)\\ =&0,5488, \end{align*} obtido junto ao programa R com o comando 2*pf(0.7142857,14,10). Assim, a hipótese nula de homogeneidade entre laboratórios não deve ser rejeitada, para o nível nominal de significância de \(5\%\).

    • c) Teste do sinal com postos de Wilcoxon

      As hipóteses nula e alternativa são

      \begin{align*} H_0:&\,\,\mu _D\ge 0 & \textrm { versus } && H_1:&\,\,\mu _D < 0. \end{align*}

      As diferenças obtidas são apresentadas a seguir.

      .
      Unidade amostrais
      Diferenças 1 2 3 4 5 6 7 8 9 10 11
      \(D_j\) \(-\)12 \(-\)10 \(-\)42 \(-\)15 1 \(-\)11 4 \(-\)60 2 \(-\)10 7

      Eliminando os sinais, ordenando essas diferenças em módulo, atribuindo postos e retornando os sinais correspondentes, tem-se os seguintes resultados.

      .
      Ordem
      Quantidades 1 2 3 4 5 6 7 8 9 10 11
      \(|D_j|\) \(-\)12 \(-\)10 \(-\)42 \(-\)15 1 \(-\)11 4 \(-\)60 2 \(-\)10 7
      Postos 8,0 5,5 10 9 1 7 3 11 2 5,5 4
      Sinais \(-\) \(-\) \(-\) \(-\) \(+\) \(-\) \(+\) \(-\) \(+\) \(-\) \(+\)

      Ocorreram empates e \(n_t\) \(=\) \(n\) \(=\) \(11\). O valor da estatística \(T^+\), nesse caso, é igual à soma dos postos positivos, que é igual a \(10\). Assim, \(T^+\) \(=\) \(10\) e \(T^-\) \(=\) \(=\) \(56\). Para calcular a variância, é necessário aplicar a correção para empates. Nesse caso, houve \(g\) \(=\) \(1\) grupo de empates com \(t_1\) \(=\) \(2\) empates. Logo,

      \begin{align*} \mu _{T^+} =& \dfrac {n_t(n_t+1)}{4}\\ =&\dfrac {11\times (11+1)}{4}\\ =&33 \end{align*} e

      \begin{align*} V_{T^+} =& \dfrac {n_t(n_t+1)(2n_t+1)-0,5\sum _{j=1}^g \left (t_j^3 -t_j\right )}{24}\\ =&\dfrac {11\times 12\times 23-0,5\times (2^3 - 2)}{24} \\ =& 126,375. \end{align*}

      O valor da estatística \(T_c\) é

      \begin{align*} T_c=& \dfrac {T^+-\mu _{T^+}}{\sqrt {\dfrac {n_t V_{T^+} - \left (T^+-\mu _{T^+} \right )^2}{n_t-1}}}\\ =& \dfrac {10-33}{\sqrt {\dfrac {11\times 126,375 - \left (10-33\right )^2}{11-1}}}\\ =& \dfrac {-23}{\sqrt {86,1125}}\\ =& -2,4785, \end{align*} com \(\nu \) \(=\) \(10\) graus de liberdade.

      O valor-\(p\) é

      \begin{align*} \textrm {valor-}p =& 2\times P(T\ge 2,4785;\nu =10)=0,0326. \end{align*}

      Assim, a hipótese nula de homogeneidade dos laboratórios deve ser rejeitada no nível nominal de significância de \(5\%\). Assim, o laboratório comercial possui valor mediano inferior ao do laboratório estatal. Este resultado é diferente dos anteriores. Isso apenas demonstra que o teste do sinal com postos, em situações não normais é muito mais poderoso que os testes concorrentes.

  • 12.2.3 Vamos aplicar o teste \(t\) e o LRT com e sem correção de Bartlett. As hipóteses nula e alternativa são

    \begin{align*} H_0: &\,\, \sigma ^2_1 =\sigma ^2_2=\sigma ^2 &\textrm { versus }&& H_1: &\,\, \sigma ^2_1 \ne \sigma ^2_2. \end{align*}

    As estimativas não viesadas das variâncias e covariância necessárias para a aplicação dos testes são

    \begin{align*} S^2_1 =& 1014,0727, &&& S^2_2=&363,7636, &&& S_{12}=& 479,6091, \end{align*} além de

    \begin{align*} r_1=& \dfrac {S_{12}}{\sqrt {S^2_1S^2_2}}=\dfrac {479,6091}{\sqrt {1014,0727\times 363,7636}}=0,7897. \end{align*}

    As estimativas de máxima verossimilhança, divisor \(n\), são

    \begin{align*} \hat {\sigma }^2_1 =& 921,8843, &&& \hat {\sigma }^2_2=&330,6942, &&& \hat {\sigma }_{12}=& 436,0083, \end{align*}

    \begin{align*} \hat {\sigma }^2=& \dfrac {\hat {\sigma }^2_1+\hat {\sigma }^2_2}{2}\\ =& \dfrac {921,8843+ 330,6942}{2}\\ =& 626,2893 \end{align*} e

    \begin{align*} \hat {\rho }=& \dfrac {\hat {\sigma }_{12}}{\hat {\sigma }^2} =\dfrac {436,0083}{626,2893}\\ =& 0,6962. \end{align*}

    • i) Teste \(t\) de Student

      Para aplicar esse teste, é necessário calcular o valor de \(F\) por

      \begin{align*} F =& \dfrac {S^2_1}{S^2_2}=\dfrac {1014,0727}{363,7636}\\ =& 2,7877. \end{align*}

      Em seguida, como \(r_1\) já foi obtido anteriormente, deve-se calcular o valor da estatística por

      \begin{align*} T_c =& \dfrac {(F-1)\sqrt {n-2}}{2\sqrt {F(1-r_1^2)}} \\ =& \dfrac {(2,7877-1)\times \sqrt {11-2}}{2\times \sqrt {2,7877\times (1-0,7897^2)}} \\ =& 2,6177. \end{align*}

      O valor-\(p\) é obtido da distribuição \(t\) de Student com \(\nu \) \(=\) \(n - 2\) \(=\) \(11 - 2\) \(=\) \(9\) graus de liberdade, por

      \begin{align*} \textrm {valor-}p =& 2P(T\ge 2,6177;\nu =9)=0,0279. \end{align*}

      Como o valor-\(p\) é menor que \(5\%\), conclui-se que existem evidências significativas para rejeitar a hipótese de igualdade de variâncias de sólido suspensos (SS) dos dois laboratórios considerados. É possível afirmar que a variabilidade de SS do laboratório comercial é maior variabilidade do que a do laboratório estatal.

    • ii) LRT sem correção

      É fácil perceber que o estimador \(\hat {\rho }_{12}\) é equivalente ao estimador \(r_1\), pois os divisores \(n-1\) e \(n\) não interferem na estimativa obtida. Assim, a estatística do teste LRT é dada por

      \begin{align*} \chi ^2_c =& n\left [2\ln \left (\hat {\sigma }^2\right )+ \ln \left (1 - \hat {\rho }^2 \right ) - \sum _{i=1}^{2} \ln \left (\hat {\sigma }^2_i\right ) - \ln \left (1-\hat {\rho }^2_{12}\right ) \right ]\\ =& 11\times \bigg [2\times \ln (626,2893)+ \ln (1-0,6962^2) - \\ & \qquad - \ln (921,8843)-\ln (330,6942)-\ln (1-0,7897^2)\bigg ]\\ =& 6,2272. \end{align*}

      O valor-\(p\) para testar a hipótese é dado pela distribuição qui-quadrado com \(\nu \) \(=\) \(1\). O teste pode, ainda, ser feito comparando o valor calculado com o valor crítico \(\chi ^2_{0,05;\nu =1}\) \(=\) \(3,84\). O valor-\(p\) é dado por

      \begin{align*} \textrm {valor-}p =& P(\chi ^2\ge 6,2272;\nu =1)=0,0126. \end{align*}

      Como tanto o valor-\(p\) é inferior a \(5\%\) quanto o valor calculado de 6,23 é superior ao valor crítico de \(3,84\), a hipótese nula deve ser rejeitada. Observe que o valor-\(p\) dessa aproximação é bem inferior ao valor-\(p\) do teste \(t\), que sob o modelo normal bivariado é exato.

    • iii) LRT com correção de Bartlett

      Para aplicar esse teste, é necessário calcular a correção de Bartlett e multiplicar resultado pelo valor qui-quadrado obtido anteriormente. A correção é dada por

      \begin{align*} C =& \left [1-(2k+11)/(6n)\right ]\\ =& [1-(2\times 2+11)/(6\times 11)]\\ =& 0,7727273. \end{align*}

      Assim, o valor qui-quadrado é

      \begin{align*} \chi ^2_c =& n\left [1-(2k+11)/(6n)\right ] \left [2\ln \left (\hat {\sigma }^2\right )+ \ln \left (1 - \hat {\rho }^2 \right ) - \sum _{i=1}^{2} \ln \left (\hat {\sigma }^2_i\right ) - \ln \left (1-\hat {\rho }^2_{12}\right ) \right ]\\ =& 0,7727273\times 6,2272\\ =& 4,8119. \end{align*}

      O valor-\(p\) para testar a hipótese é dado pela distribuição qui-quadrado com \(\nu = 1\) por

      \begin{align*} \textrm {valor-}p =& P(\chi ^2\ge 4,8119;\nu =1)=0,0283. \end{align*}

      Chegou-se, nesse caso, à mesma conclusão anterior de que há evidências significativas a \(5\%\) para rejeitar a hipótese nula de que os dois laboratórios não concordam na variabilidade das análises fornecidas e que a variabilidade do laboratório comercial é maior do que a do estatal. Nota-se a extrema concordância dos valores-\(p\) apresentados por essa última alternativa e pelo \(t\) de Student, conforme já foi ressaltado na discussão dos resultados das simulações Monte Carlo realizadas no Livro.

  • 12.2.4