Estatı́stica Básica
3.2 Resolução
-
3.2.1 Podemos extrair uma amostra de tamanho \(n=10\), sem reposição, da seguinte forma: a) enumerando a população de \(1\) a \(N=35\) (números entre parênteses no enunciado da questão) e sorteando \(n=10\) números aleatórios entre \(1\) e \(35\). Se algum destes números se repetir, sorteamos outro número. Podemos usar, por exemplo, o comando sample do programa R: sample(DAP, 10, replace=FALSE), em que DAP é o vetor com os \(35\) valores populacionais. Se escolhermos realizar isso com um gerador de números aleatórios, estes números representam as \(n=10\) árvores sorteadas. Registramos o \(DAP\) das árvores selecionadas para formamos nossa amostra. Convém enfatizar que em uma situação real, temos apenas o diâmetro das árvores que foram amostradas. Neste exemplo temos todos os DAPs, pois é um exemplo didático. Sorteamos um número \(\#\) da árvore, da seguinte forma: \(\#\)Árvore \(=trunc(Random\times N)+1\), em que \(trunc\) retorna a parte inteira do argumento;
Fizemos isso para o exemplo, considerando \(n=10\) e obtivemos a seguinte elementos sorteados (# árvores): \(18\), \(7\), \(35\), \(33\), \(23\), \(30\), \(3\), \(11\), \(28\), \(16\). Registrando estes valores (ou seja visitando estas árvores sorteadas) obtivemos a seguinte amostra dos DAPs: \(23\), \(24\), \(22\), \(28\), \(24\), \(27\), \(35\), \(24\), \(25\), \(19\). Cada leitor, utilizando um processo aleatório de sorteio, irá produzir uma amostra diferente. A média desta amostra é dada por: \(\bar {X}=(23+\ldots +19)/10=25,1\). A média da população é \(\mu =(25+20+\ldots +22)/35= 24,45714\).
Assim, o erro relativo foi:
\(\seteqnumber{0}{3.}{0}\)\begin{align*} er =&\dfrac {\bar {X}-\mu }{\mu }\times 100=\dfrac {25,1-24,45714}{24,45714}\times 100\\ =& 2,628505\%. \end{align*} Assim, erramos para mais \(2,628505\%\), ou seja, nossa amostra superestimou a média da população. O erro absoluto foi de 0,64 cm para mais. Se o erro relativo é negativo, indica que houve subestimação, caso contrário superestimação. Como o processo é aleatório, os diferentes leitores terão erros para mais e para menos e eventualmente, podem até apresentar erro zero de estimação.
O número possível de amostras de tamanho \(n=10\), sem reposição, dessa população é dado por \(\binom {N}{n}=\binom {35}{10}= 183.579.396\). Podemos observar que o número de amostras de tamanho \(n=10\) extraída sem reposição de uma população de tamanho \(N=35\) é muito grande, ou seja, de aproximadamente \(184\) milhões de possibilidades. Com reposição esse número é de \(N^n=35^10=\) \(2,76\times 10^{15}.\) Assim, em populações reais, este número é extremamente grande, refletindo a complexidade dos processos de amostragem.
-
3.2.2 Como a população possui, potencialmente, uma heterogeneidade de salários entre os diferentes estratos a ASA não é apropriada, pois ela exige populações homogêneas. Devemos fazer uma amostragem estratificada, que, no caso, deve ser a AE proporcional. A amostra deve ser dimensionada em cada estrato considerando seu tamanho, ou seja, quanto maior o estrato populacional, maior deve ser a amostra naquele estrato. O dimensionamento segue a seguinte expressão: \(n_h=n\times N_h/N\). Assim, para o primeiro estrato temos: \(n_1=n\times N_1/N=60\times 314/3.414=5,51\approx 6\). Para os demais estratos, utilizamos esta fórmula e obtivemos os seguintes resultados
Setores \((h)\) Número de funcionários \((N_h)\) \(n_h\) Administrativo 314 6 Transporte 948 17 Campo 1.451 26 Outros 701 12 Total \(N=3.414\) \(n=181\) Como todos os arredondamentos foram feitos para cima, então a amostra efetiva deverá ser de \(n=61\). Para amostrarmos cada estrato, podemos utilizar tanto uma ASA como uma amostragem sistemática (AS). Para aplicar uma ASA é necessário ter estratos enumeráveis e para uma AS, devemos possuir algum tipo de distribuição espacial do estrato de forma a permitir um processo de saltos regulares entre os seus elementos.
-
3.2.3 Podemos utilizar como peso os tamanhos amostrais ou os tamanho populacionais de cada estrato. A tabela completa com os pesos e tamanho de amostra retificado pelos ajustes feitos no exercício anterior são:
Setores \((h)\) \(N_h\) \(n_h\) \((\bar {X}_h)\) Administrativo 314 \(n_1=6\) \(2.545,00\) Transporte 948 \(n_2=17\) \(\,\,\,\,480,00\) Campo 1.451 \(n_3=26\) \(\,\,\,\,680,00\) Outros 701 \(n_4=12\) \(\,\,\,\,987,00\) Total \(N=3.414\) \(n=61\) Utilizando o primeiro estimador:
\(\seteqnumber{0}{3.}{0}\)\begin{align*} \bar {X}_{est}=& \dfrac {314\times 2.545,00+\ldots +701\times 987}{3.414}=859,03 \end{align*} e aplicando o segundo estimador, temos
\(\seteqnumber{0}{3.}{0}\)\begin{align*} \bar {X}=& \dfrac {6\times 2.545,00+\ldots +12\times 987}{61}=868,10. \end{align*}
Neste caso, os dois estimadores são equivalentes, pois \(n_h/n=N_h/N\). Embora haja uma pequena diferença ocorrida se deve ao arredondamento dos tamanhos dos estratos amostrais e ao tamanho reduzido da amostra, em que os arredondamentos dos pesos são sentidos mais severamente no estimador.
-
3.2.4 Em populações heterogêneas, em que for possível realizar um subdivisão em estratos homogêneos, devemos recomendar a amostragem estratificada pois se a população for homogêneas a ASA (amostra simples ao acaso) é recomendada.
-
3.2.5 Amostragem probabilística é aquela em que todos elementos da população possuem probabilidade não-nula de participar da amostra e sua principal característica é o uso do sorteio. Se por algum razão algum elemento ou grupo de elementos da população possuir probabilidade nula de participar da amostra ou a amostragem for feita sem sorteio, então a amostragem é considerada não-probabilística.
-
3.2.6 ASA: Amostragem utilizada em situações em que a população é homogênea e enumerável. AS: também utilizada em populações homogêneas, mas que tenha uma distribuição espacial que permite a utilização de um processo de amostragem em que são tomados os elementos sistematicamente (regularmente) de acordo com uma razão \(r=N/n\). Assim, os dois tipos de amostragem diferem basicamente na forma em que a amostragem é realizada.
-
3.2.7 O tamanho do estrato amostral é diretamente proporcional ao tamanho do estrato populacional e a sua variabilidade. A ideia é que quanto maior for estrato amostral, maior deve ser sua amostra para representá-lo adequadamente; da mesma forma e não menos importante, quanto mais variável for o estrato, maior heterogeneidade, maior deve ser a representatividade do estrato. Esta análise é facilmente realizada observando a expressão para dimensionarmos o tamanho do estrato amostral, que é dada por:
\(\seteqnumber{0}{3.}{0}\)\begin{align*} n_h=& \dfrac {N_h\sigma _h}{\displaystyle \sum _{i=1}^L N_h\sigma _h} \times n. \end{align*}
-
3.2.8 A média populacional do peso de ratos é: \(\mu =(18,77+19,17+\ldots +18,30)/20=18,7025\). Para obtermos os erros relativos a cada tamanho de amostra, construímos a seguinte tabela contendo as amostras sorteadas de cada tamanho (sem reposição) e a estimativa da média. Cada amostragem foi feita conforme procedimento descrito no exercício resolvido 3.2.1.
Tamanho \((n)\) Amostra
\(\bar {X}\) \(er\)% 2 17,37; 19,37
18,3700 \(-\)1,11% 4 18,47; 17,93; 19,38; 17,51
18,3225 \(-\)1,37% 6 17,76; 18,47; 19,14; 19,38; 18,77; 21,71
19,2050 3,38% 10 21,71; 17,76; 19,17; 17,19; 19,14; 19,38; 18,47; 18,62; 16,99; 17,44
18,5870 0,05% 12 17,51; 21,71; 18,62; 19,37; 17,44; 19,38; 19,17; 18,77; 21,65; 17,37; 18,47; 18,47
18,9942 2,25% O gráfico correspondente é dado por:
Verificamos que existe uma “tendência” do valor absoluto do erro decrescer na medida que o tamanho da amostra \(n\) aumenta. Fizemos \(1.000\) repetições deste procedimento em um programa de análise estatística e o resultado gráfico é dado por:
Observamos que existe uma tendência das amplitudes dos erros relativos reduzirem com o aumento do tamanho da amostra \(n\).
-
3.2.9 Considerando cada célula da tabela apresentada fosse uma posição de uma gaiola individual, como no esquema a seguir:
Peso de fêmeas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Assim, temos \(20\) gaiolas individuais e realizamos uma amostra sistemática. Sorteamos uma posição e com saltos \(r\) \(\approx \) \(N / n\) sorteamos a amostra de tamanho \(n\). Por exemplo, para \(n=2\) temos \(r=20/2\) \(=\) \(10\). Assim, sorteamos um elemento entre os primeiros \(10\) e depois saltamos \(r=10\) unidades para o próximo.
Para obtermos os erros relativos à cada tamanho de amostra, construímos a seguinte tabela contendo as amostras sorteadas de cada tamanho de forma sistemática e a estimativa da média. O erro relativo foi estimado conforme procedimento descrito no exercício 3.2.1. Nas amostras de tamanho \(n=2\) foram sorteados os elementos \(9\) e \(19\). Veja que \(r=10\) e o sorteio entre os dez primeiros elementos resultou no valor \(9\). Para \(n=4\), o sorteio foi \(1\), \(6\), \(11\), \(16\). Neste caso \(r=5\) e o elemento sorteado entre os \(5\) primeiro foi o \(1\), resultando nesta amostra. Para \(n=6\) o sorteio foi \(3\), \(6\), \(9\), \(12\), \(15\), \(18\), com \(r=3\). Para \(n=10\) o sorteio foi \(2\), \(4\), \(6\), \(8\), \(10\), \(12\), \(14\), \(16\), \(18\), \(20\), com \(r=2\). Finalmente, para \(n=12\) o sorteio foi \(1\), \(2\), \(3\), \(4\), \(5\), \(6\), \(7\), \(8\), \(9\), \(10\), \(11\), \(12\) com \(r=1\). É importante salientar que este método não é apropriado para ser aplicado quando \(n > N/2\), como neste último caso de \(n=12\). Os valores correspondentes, usando a tabela acima como máscara para a tabela com os dados originais e usando-se os números sorteados acima, estão apresentados na seguinte tabela de resultados:
Tamanho \((n)\) Amostra
\(\bar {X}\) \(er\)% 2 17,44; 19,14
18,2900 \(-\)1,54% 4 18,77; 17,90; 21,71; 19,37
19,4375 4,63% 6 18,47; 17,90; 17,44; 17,37; 17,93; 16,99
17,6833 \(-\)4,81% 10 19,17; 18,40; 17,90; 19,38; 17,51; 17,37; 18,62; 19,37; 16,99; 18,30
18,3010 \(-\)1,49% 12 18,77; 19,17; 18,47; 18,40; 17,76; 17,90; 21,65; 19,38; 17,44; 17,51; 21,71; 17,37
18,7942 1,17% O gráfico correspondente é dado por:
-
3.2.10 A amostragem estratificada uniforme deve ser utilizada quando os estratos populacionais possuírem tamanhos aproximadamente iguais e a amostragem estratificada proporcional, quando estes estratos tiverem tamanhos muito diferentes uns dos outros. Na amostragem estratificada proporcional o tamanho do estrato amostral é diretamente proporcional ao tamanho do estrato populacional. Assim, quanto maior \(N_h\) maior será o tamanho da amostra naquele estrato \((n_h)\). Da mesma forma, a expressão utilizada para dimensionar o estrato amostral permite que se faça esta análise. A expressão correspondente é:
\(\seteqnumber{0}{3.}{0}\)\begin{align*} n_h=& \dfrac {N_h}{N} \times n. \end{align*}