Estatı́stica Básica
12.2 Resolução
-
12.2.1 Justifica-se a aplicação de um teste de hipótese para dados emparelhados pelo fato de as amostras de ambas as variedades terem sido obtidas no mesmo local, considerando várias locais para o estudo como um todo. Assim, formaram-se \(n = 10\) blocos (locais) compostos de um conjunto de duas unidades experimentais com alta uniformidade entre si. A cada par de unidades amostral em cada local, foram casualizadas ambas as variedades.
As hipóteses de interesse e alternativa são dadas por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} H_0:&\,\,\mu _D\le 10 & \textrm { versus } && H_1:&\,\,\mu _D>10. \end{align*}
A estatística adequada para testar essa hipótese é dada por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} T_c =& \dfrac {\bar {D}-\mu _0}{\dfrac {S_D}{\sqrt {n}}}\\ =&\dfrac {15,13-10}{ \dfrac {4,9004}{\sqrt {10}}}\\ =&3,3105, \end{align*} associada à \(\nu \) \(=\) \(10-1\) \(=\) \(9\) graus de liberdade.
O valor-\(p\) para a hipótese unilateral é \(P(T >\) 3,3105;\(\nu =9)\) \(=\) 0,0045. Assim, existem evidências significativas a \(5\%\) de que a hipótese de que a variedade B produza em média \(10\) t/ha ou menos que a variedade A. Portanto, a variedade B é mais produtiva que a variedade A por uma quantidade que supera \(10\) t/ha. O intervalo de\(95\%\) de confiança unilateral à direita (hipótese alternativa “maior que”) é \([\)15,13, \(\infty )\). Assim, o limite inferior para a diferença pode ser mais precisamente com o resultado deste intervalo, complementando o resultado do teste.
Complementando a resposta à pergunta feita no exercício, a qual respondemos no início, podemos fazer uma analogia do teste \(t\) para amostras emparelhadas com a análise de variância em delineamento em blocos completos casualizados. Se considerarmos dois tratamentos (as variedades) e os locais (unidades amostrais) como blocos, o teste \(F\) é equivalente ao test \(t\) que apresentamos. O valor da estatística \(F\) é o quadrado do valor da estatística \(t\) e o valor-\(p\) é o mesmo em ambos os casos, levando a mesma conclusão.
-
12.2.2 Vamos considerar o teste \(t\) para o caso normal, mas também os testes não paramétricos. Vamos considerar que a concordância entre os laboratórios refere-se à homogeneidade de suas médias ou de suas medianas. Assim, vamos aplicar três testes, que são detalhados a seguir.
-
a) Teste para a igualdade de médias supondo normalidade bivariada da distribuição conjunta dos laboratórios ou normalidade da diferença:
As hipóteses de interesse e alternativa são dadas por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} H_0:&\,\,\mu _D\le 0 & \textrm { versus } && H_1:&\,\,\mu _D> 0. \end{align*}
A estatística adequada para testar essa hipótese é dada por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} T_c =& \dfrac {\bar {D}-\mu _0}{\dfrac {S_D}{\sqrt {n}}}\\ =&\dfrac {-13,27273}{ \dfrac {20,46016}{\sqrt {11}}}\\ =&-2,15153, \end{align*} associada à \(\nu \) \(=\) \(11-1\) \(=\) \(10\) graus de liberdade.
O valor-\(p\) para a hipótese bilateral é \(2P(T >\)2,15153;\(\nu =10)\) \(=\) 0,0569. Assim, não existem evidências significativas a \(5\%\) para rejeitar a hipótese de homogeneidade dos laboratórios.
-
b) Teste do sinal exato
A hipótese nula de homogeneidade entre os laboratórios e a hipótese alternativa são dadas por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} H_0:&\,\,\mu _D\ge 0 & \textrm { versus } && H_1:&\,\,\mu _D < 0. \end{align*}
Nesse caso, \(\mu _0\) \(=\) \(0\) e as diferenças foram obtidas por \(D_j\) \(=\) \(X_{2j}-X_{1j}-\mu _0\) \(=\) \(X_{2j}-X_{1j}\), para \(j=1\), \(2\), \(\cdots \), \(n\). Como nenhuma diferença foi igual a zero, o tamanho efetivo da amostra \(n_t\) foi igual a \(11\). O valor de \(n^+\) é \(4\) e de \(n^-\) é \(7\). O valor de \(S\) é \(s\) \(=\) \(n^+\) \(=\) \(4\).
Se \(H_0\) é verdadeira, então espera-se \(E(S)\) \(=\) 5,5. O valor-\(p\) pode, de forma exata, ser obtido alternativa pela distribuição \(F\). O valor da estatística é
\(\seteqnumber{0}{12.}{0}\)\begin{align*} F_c =& \dfrac {s+1}{n_t-s}\\ =&\dfrac {4+1}{11-4}=\dfrac {5}{7}\\ =&0,7142857, \end{align*} com \(\nu _1\) \(=\) \(2(n_t-s)\) \(=\) \(2\times (11-4)\) \(=\) \(14\) e \(\nu _2\) \(=\) \(2(s+1)\) \(=\) \(2(4+1)\) \(=\) \(10\) graus de liberdade. O valor-\(p\) é
\(\seteqnumber{0}{12.}{0}\)\begin{align*} \textrm {valor-}p =& P(S\le 4)=2P(F\le 0,7142857;\nu _1=14,\nu _2=10)\\ =&0,5488, \end{align*} obtido junto ao programa R com o comando 2*pf(0.7142857,14,10). Assim, a hipótese nula de homogeneidade entre laboratórios não deve ser rejeitada, para o nível nominal de significância de \(5\%\).
-
c) Teste do sinal com postos de Wilcoxon
As hipóteses nula e alternativa são
\(\seteqnumber{0}{12.}{0}\)\begin{align*} H_0:&\,\,\mu _D\ge 0 & \textrm { versus } && H_1:&\,\,\mu _D < 0. \end{align*}
As diferenças obtidas são apresentadas a seguir.
Unidade amostrais Diferenças 1 2 3 4 5 6 7 8 9 10 11 \(D_j\) \(-\)12 \(-\)10 \(-\)42 \(-\)15 1 \(-\)11 4 \(-\)60 2 \(-\)10 7 Eliminando os sinais, ordenando essas diferenças em módulo, atribuindo postos e retornando os sinais correspondentes, tem-se os seguintes resultados.
Ordem Quantidades 1 2 3 4 5 6 7 8 9 10 11 \(|D_j|\) \(-\)12 \(-\)10 \(-\)42 \(-\)15 1 \(-\)11 4 \(-\)60 2 \(-\)10 7 Postos 8,0 5,5 10 9 1 7 3 11 2 5,5 4 Sinais \(-\) \(-\) \(-\) \(-\) \(+\) \(-\) \(+\) \(-\) \(+\) \(-\) \(+\) Ocorreram empates e \(n_t\) \(=\) \(n\) \(=\) \(11\). O valor da estatística \(T^+\), nesse caso, é igual à soma dos postos positivos, que é igual a \(10\). Assim, \(T^+\) \(=\) \(10\) e \(T^-\) \(=\) \(=\) \(56\). Para calcular a variância, é necessário aplicar a correção para empates. Nesse caso, houve \(g\) \(=\) \(1\) grupo de empates com \(t_1\) \(=\) \(2\) empates. Logo,
\(\seteqnumber{0}{12.}{0}\)\begin{align*} \mu _{T^+} =& \dfrac {n_t(n_t+1)}{4}\\ =&\dfrac {11\times (11+1)}{4}\\ =&33 \end{align*} e
\(\seteqnumber{0}{12.}{0}\)\begin{align*} V_{T^+} =& \dfrac {n_t(n_t+1)(2n_t+1)-0,5\sum _{j=1}^g \left (t_j^3 -t_j\right )}{24}\\ =&\dfrac {11\times 12\times 23-0,5\times (2^3 - 2)}{24} \\ =& 126,375. \end{align*}
O valor da estatística \(T_c\) é
\(\seteqnumber{0}{12.}{0}\)\begin{align*} T_c=& \dfrac {T^+-\mu _{T^+}}{\sqrt {\dfrac {n_t V_{T^+} - \left (T^+-\mu _{T^+} \right )^2}{n_t-1}}}\\ =& \dfrac {10-33}{\sqrt {\dfrac {11\times 126,375 - \left (10-33\right )^2}{11-1}}}\\ =& \dfrac {-23}{\sqrt {86,1125}}\\ =& -2,4785, \end{align*} com \(\nu \) \(=\) \(10\) graus de liberdade.
O valor-\(p\) é
\(\seteqnumber{0}{12.}{0}\)\begin{align*} \textrm {valor-}p =& 2\times P(T\ge 2,4785;\nu =10)=0,0326. \end{align*}
Assim, a hipótese nula de homogeneidade dos laboratórios deve ser rejeitada no nível nominal de significância de \(5\%\). Assim, o laboratório comercial possui valor mediano inferior ao do laboratório estatal. Este resultado é diferente dos anteriores. Isso apenas demonstra que o teste do sinal com postos, em situações não normais é muito mais poderoso que os testes concorrentes.
-
-
12.2.3 Vamos aplicar o teste \(t\) e o LRT com e sem correção de Bartlett. As hipóteses nula e alternativa são
\(\seteqnumber{0}{12.}{0}\)\begin{align*} H_0: &\,\, \sigma ^2_1 =\sigma ^2_2=\sigma ^2 &\textrm { versus }&& H_1: &\,\, \sigma ^2_1 \ne \sigma ^2_2. \end{align*}
As estimativas não viesadas das variâncias e covariância necessárias para a aplicação dos testes são
\(\seteqnumber{0}{12.}{0}\)\begin{align*} S^2_1 =& 1014,0727, &&& S^2_2=&363,7636, &&& S_{12}=& 479,6091, \end{align*} além de
\(\seteqnumber{0}{12.}{0}\)\begin{align*} r_1=& \dfrac {S_{12}}{\sqrt {S^2_1S^2_2}}=\dfrac {479,6091}{\sqrt {1014,0727\times 363,7636}}=0,7897. \end{align*}
As estimativas de máxima verossimilhança, divisor \(n\), são
\(\seteqnumber{0}{12.}{0}\)\begin{align*} \hat {\sigma }^2_1 =& 921,8843, &&& \hat {\sigma }^2_2=&330,6942, &&& \hat {\sigma }_{12}=& 436,0083, \end{align*}
\(\seteqnumber{0}{12.}{0}\)\begin{align*} \hat {\sigma }^2=& \dfrac {\hat {\sigma }^2_1+\hat {\sigma }^2_2}{2}\\ =& \dfrac {921,8843+ 330,6942}{2}\\ =& 626,2893 \end{align*} e
\(\seteqnumber{0}{12.}{0}\)\begin{align*} \hat {\rho }=& \dfrac {\hat {\sigma }_{12}}{\hat {\sigma }^2} =\dfrac {436,0083}{626,2893}\\ =& 0,6962. \end{align*}
-
i) Teste \(t\) de Student
Para aplicar esse teste, é necessário calcular o valor de \(F\) por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} F =& \dfrac {S^2_1}{S^2_2}=\dfrac {1014,0727}{363,7636}\\ =& 2,7877. \end{align*}
Em seguida, como \(r_1\) já foi obtido anteriormente, deve-se calcular o valor da estatística por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} T_c =& \dfrac {(F-1)\sqrt {n-2}}{2\sqrt {F(1-r_1^2)}} \\ =& \dfrac {(2,7877-1)\times \sqrt {11-2}}{2\times \sqrt {2,7877\times (1-0,7897^2)}} \\ =& 2,6177. \end{align*}
O valor-\(p\) é obtido da distribuição \(t\) de Student com \(\nu \) \(=\) \(n - 2\) \(=\) \(11 - 2\) \(=\) \(9\) graus de liberdade, por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} \textrm {valor-}p =& 2P(T\ge 2,6177;\nu =9)=0,0279. \end{align*}
Como o valor-\(p\) é menor que \(5\%\), conclui-se que existem evidências significativas para rejeitar a hipótese de igualdade de variâncias de sólido suspensos (SS) dos dois laboratórios considerados. É possível afirmar que a variabilidade de SS do laboratório comercial é maior variabilidade do que a do laboratório estatal.
-
ii) LRT sem correção
É fácil perceber que o estimador \(\hat {\rho }_{12}\) é equivalente ao estimador \(r_1\), pois os divisores \(n-1\) e \(n\) não interferem na estimativa obtida. Assim, a estatística do teste LRT é dada por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} \chi ^2_c =& n\left [2\ln \left (\hat {\sigma }^2\right )+ \ln \left (1 - \hat {\rho }^2 \right ) - \sum _{i=1}^{2} \ln \left (\hat {\sigma }^2_i\right ) - \ln \left (1-\hat {\rho }^2_{12}\right ) \right ]\\ =& 11\times \bigg [2\times \ln (626,2893)+ \ln (1-0,6962^2) - \\ & \qquad - \ln (921,8843)-\ln (330,6942)-\ln (1-0,7897^2)\bigg ]\\ =& 6,2272. \end{align*}
O valor-\(p\) para testar a hipótese é dado pela distribuição qui-quadrado com \(\nu \) \(=\) \(1\). O teste pode, ainda, ser feito comparando o valor calculado com o valor crítico \(\chi ^2_{0,05;\nu =1}\) \(=\) \(3,84\). O valor-\(p\) é dado por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} \textrm {valor-}p =& P(\chi ^2\ge 6,2272;\nu =1)=0,0126. \end{align*}
Como tanto o valor-\(p\) é inferior a \(5\%\) quanto o valor calculado de 6,23 é superior ao valor crítico de \(3,84\), a hipótese nula deve ser rejeitada. Observe que o valor-\(p\) dessa aproximação é bem inferior ao valor-\(p\) do teste \(t\), que sob o modelo normal bivariado é exato.
-
iii) LRT com correção de Bartlett
Para aplicar esse teste, é necessário calcular a correção de Bartlett e multiplicar resultado pelo valor qui-quadrado obtido anteriormente. A correção é dada por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} C =& \left [1-(2k+11)/(6n)\right ]\\ =& [1-(2\times 2+11)/(6\times 11)]\\ =& 0,7727273. \end{align*}
Assim, o valor qui-quadrado é
\(\seteqnumber{0}{12.}{0}\)\begin{align*} \chi ^2_c =& n\left [1-(2k+11)/(6n)\right ] \left [2\ln \left (\hat {\sigma }^2\right )+ \ln \left (1 - \hat {\rho }^2 \right ) - \sum _{i=1}^{2} \ln \left (\hat {\sigma }^2_i\right ) - \ln \left (1-\hat {\rho }^2_{12}\right ) \right ]\\ =& 0,7727273\times 6,2272\\ =& 4,8119. \end{align*}
O valor-\(p\) para testar a hipótese é dado pela distribuição qui-quadrado com \(\nu = 1\) por
\(\seteqnumber{0}{12.}{0}\)\begin{align*} \textrm {valor-}p =& P(\chi ^2\ge 4,8119;\nu =1)=0,0283. \end{align*}
Chegou-se, nesse caso, à mesma conclusão anterior de que há evidências significativas a \(5\%\) para rejeitar a hipótese nula de que os dois laboratórios não concordam na variabilidade das análises fornecidas e que a variabilidade do laboratório comercial é maior do que a do estatal. Nota-se a extrema concordância dos valores-\(p\) apresentados por essa última alternativa e pelo \(t\) de Student, conforme já foi ressaltado na discussão dos resultados das simulações Monte Carlo realizadas no Livro.
-
-
12.2.4