Estatı́stica Básica
Capı́tulo 2 Estatística Descritiva
2.1 Exercícios
-
2.1.1 Os dados apresentados a seguir referem-se às produções de \(50\) plantas de uma progênie \(F_2\) de feijoeiro em g/planta, avaliada no Departamento de Biologia da UFLA, em \(1997\).
2,81
3,19
3,49
3,76
6,02
8,23
2,23
3,01
4,43
13,94
3,10
1,52
3,38
2,85
4,64
7,33
6,78
13,12
13,84
9,40
6,20
2,39
9,19
7,07
9,20
13,46
3,90
8,99
7,97
5,15
12,95
25,52
6,61
16,56
9,60
6,71
6,73
3,86
3,50
4,80
8,40
13,86
6,53
18,44
22,14
9,15
8,75
10,86
14,20
10,09
-
a) Agrupar os dados em uma tabela de distribuição de frequência de várias formas diferentes, determinando o número de classes pelos critérios apresentados na seção 2.1.
-
b) Escolher um dos critérios e fazer o histograma e o polígono de frequência num mesmo gráfico.
-
c) Construir as distribuições de frequências acumuladas e traçar as ogivas em um mesmo plano cartesiano.
-
d) Qual é a porcentagem de plantas com produtividade superior a \(9\) g/planta? Utilizar as ogivas e a interpolação algébrica a partir da distribuição de frequência. Comparar e discutir os resultados com a proporção amostral exata, obtida dos dados elaborados.
-
e) Discutir sobre a natureza da distribuição quanto à simetria tomando por base a inspeção do polígono de frequências construído.
-
f) Obter a representação em ramos e folhas, discutir e comparar os resultados com o polígono e histogramas obtidos.
-
g) Acima de qual produtividade estão \(50\)% das plantas (\(25\) plantas)? Usar todos os recursos disponíveis para obter esse valor, comparar e discutir os resultados obtidos em cada um deles.
-
h) Qual a porcentagem de plantas com produtividade inferior a 3,5 g?
-
i) Obter a produtividade que apresenta \(25\)% de plantas com produtividades superiores a esse limite e a produtividade que apresenta \(25\)% das plantas com produtividades inferiores .
-
-
2.1.2 Os dados a seguir referem-se ao número de galhas de nematóides observadas em \(85\) unidades amostrais (raízes de plantas) de uma amostra realizada na UFLA, Lavras, MG.
Número de nematóides Frequências - Plantas 0
35
1
20
2
17
3
\(\,\,7\)
4
\(\,\,3\)
5
\(\,\,2\)
6
\(\,\,1\)
-
a) Fazer um gráfico da ocorrência de galhas de nematóides nas plantas avaliadas.
-
b) Obter a tabela da distribuição acumulada e das frequências relativas correspondentes.
-
c) É possível, em sua opinião, encontrar uma planta com mais de \(6\) galhas? Justificar.
-
-
2.1.3 Sejam as seguintes propriedades dos somatórios. Considerar \(a\), \(b\) e \(k\) constantes.
-
i. \(\displaystyle \sum _{j=1}^n aX_j = aX_1+aX_2+\cdots +aX_n=a\sum _{j=1}^n X_j\)
-
ii. \(\displaystyle \sum _{j=1}^n Y_jX_j = Y_1X_1+Y_2X_2+\cdots +Y_nX_n\ne \sum _{j=1}^n Y_j\sum _{j=1}^n X_j\)
-
iii. \(\displaystyle \sum _{j=1}^n (aX_j +bY_j)= a\sum _{j=1}^n X_j+b\sum _{j=1}^n Y_j\)
-
iv. \(\displaystyle \sum _{j=1}^n k = nk\)
-
v. \(\displaystyle \sum _{j=1}^n X_j^2 \ne \left (\sum _{j=1}^n X_j\right )^2\)
-
vi. \(\displaystyle \sum _{j=a}^b k =(b-a+1)k\), \(\qquad 1\le a\le b \le n\)
Considerar, ainda, o exemplo de variáveis arranjadas com dupla identificação. Por exemplo, um pesquisador interessado em verificar se as notas de matemática, de alunos do segundo grau, diferem entre os estados brasileiros, amostrou escolas e anotou a nota de \(200\) alunos em cada um dos estados. Para identificar esses dados, o estatístico poderia identificar os estados por um índice e o aluno por outro. Dessa forma tem-se a variável \(X\) com dois índices (\(X_{ij}\)). O índice \(i\) representa os estados brasileiros e o índice \(j\), os alunos de cada um deles. Outro exemplo refere-se à produção média (toneladas) por hectare de uma gramínea após a utilização de adubos nitrogenados e fosfatados. Três quantidades de nitrogênio N foram aplicadas e quatro doses de fósforo P foram consideradas também.
Produtividade em t/ha de uma forrageira sob o efeito de \(3\) doses de \(N\) em combinação com \(4\) doses de \(P\) observados em um experimento zootécnico.
Teor de nitrogênio (\(j\)) Teor de fósforo (\(i\))
1
2
3
1
4,6
5,0
5,5
2
5,0
5,5
6,1
3
5,2
5,8
6,4
4
6,0
6,2
6,8
Em algumas análises estatísticas é necessário, muitas vezes, somar as linhas e/ou colunas, bem como toda a tabela. A notação de somatório pode ser utilizada com essa finalidade. Como dois fatores determinam a produtividade, dois índices são utilizados para representá-los, como comentado anteriormente. Assim, dois símbolos de somatórios podem ser utilizados em alguns casos. Dessa forma, são definidos os seguintes somatórios:
-
i. Somar todas as produtividades da tabela anterior.
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \sum _{i=1}^4\sum _{j=1}^3 X_{ij} & = X_{11}+X_{12}+\cdots +X_{43}\\ &= 4,6+5,0+\cdots +6,8 = 68,1. \end{align*}
-
ii. Somar cada uma das linhas
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \sum _{j=1}^3 X_{ij} & = X_{i1}+X_{i2}+X_{i3}, \quad \forall i=1, 2, 3, 4. \end{align*}
Assim, por exemplo, para a segunda dose de fósforo (\(i = 2\)), a produtividade total é
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \sum _{j=1}^3 X_{2j} & = X_{21}+X_{22}+X_{23} =5,0+5,5+6,1 =16,6. \end{align*}
-
iii. Somar cada uma das colunas
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \sum _{i=1}^4 X_{ij} & = X_{1j}+X_{2j}+X_{3j}+X_{4j}, \quad \forall j=1, 2, 3. \end{align*}
Assim, por exemplo, para a terceira dose de nitrogênio (\(j = 3\)), a produtividade total é
\(\seteqnumber{0}{2.}{0}\)\begin{align*} \sum _{i=1}^4 X_{i3} & = X_{13}+X_{23}+X_{33}+X_{43}=5,5+6,1+6,4+6,8=24,8. \end{align*}
De posse dessas informações, resolver os seguintes exercícios. Sejam os conjuntos de dados:
\(\qquad \qquad X=\{2, 4, 4, 3, 2\},\)
\(\qquad \qquad Y=\{1, 2, 3, 6, 7\}.\)
Obter
i. \(\displaystyle \sum _{j=1}^4 X_j\) iv. \(\displaystyle \sum _{j=1}^5 Y_j\) ii. \(\displaystyle \sum _{j=1}^5 4X_j^2\) v. \(\displaystyle \sum _{j=1}^5 X_jY_j\) iii. \(\displaystyle \sum _{j=1}^5 (3X_j+2Y_j)\) vi. \(\displaystyle \sum _{j=1}^4 X_jY_j\) + \(\displaystyle \sum _{j=1}^5 Y_j^2\) Demonstrar numericamente e algebricamente que \(\displaystyle \sum _{j=1}^n(X_j-\bar {X})=0\). Usar os dados do conjunto \(X\) para mostrar numericamente.
Obter, com base na tabela das produtividades da gramínea, as seguintes somas
\(i. \displaystyle \sum _{i=1}^4\sum _{j=1}^3 X_{ij}^2\) \(\qquad \quad ii. \displaystyle \sum _{i=1}^4 X_{ij}^2 \quad j=1,2,3\) \(\qquad \quad iii. \displaystyle \sum _{j=1}^3 X_{ij}^2 \quad i=1,2,3,4\)
-
-
2.1.4 Foi realizada na região oeste do Paraná, no município de Marechal Cândido Rondon, em \(1992\), um levantamento da produtividade leiteira diária de \(30\) produtores rurais, atendidos pelo plano “Panela Cheia” (Roesler 1997). Os resultados da produtividade diária dos \(30\) produtores estão apresentados a seguir.
8,13 8,23 8,60 8,80 8,97 9,05 9,12 9,30 9,35 9,78 9,80 9,86 9,90 9,95 10,00 10,11 10,13 10,15 10,16 10,23 10,31 10,33 10,40 10,46 10,50 11,14 11,29 11,46 12,05 12,14 -
a) Obter a estimativa da média aritmética e da midrange (\(\bar {X}_{0,50}\)).
-
b) Estimar a média aparada, removendo da amostra os dois maiores e os dois menores valores. Nesse caso você acha que justifica o uso da média aparada?
-
c) Estimar a mediana. Você acha que seria possível estimar a moda nesses dados do jeito que eles se encontram?
-
d) Pelos \(5\) métodos apresentados (equações (2.2.8) a (2.2.12)), estime os percentis \(5\%\) e \(95\%\). Os métodos apresentaram muitas diferenças entre si?
-
e) Se for multiplicada a produtividade por \(R\$\,\,0,27\) de cada produtor, para se obter a renda média por produtor/animal/dia, qual será o novo valor para amostra?
-
f) Estimar a média harmônica e a média geométrica e comparar os valores entre si e também com a média aritmética.
-
-
2.1.5 Fazer a distribuição de frequência dos dados do exercício 2.1.4 e calcular:
-
a) Média aritmética, mediana e moda.
-
b) A média geométrica, a média harmônica e a média quadrática.
-
c) Fazer a comparação desses valores com os obtidos no exercício anterior e discutir sobre as razões das diferenças.
-
d) Traçar o histograma e o polígono de frequência
-
e) Baseado nesses gráficos, determinar qual é a natureza da distribuição, quanto à simetria. Baseado nessa resposta, indicar qual medida de posição é a mais adequada para representar os dados amostrais. Justifique.
-
f) Se você fosse solicitado pelo prefeito da cidade para estimar a produtividade de leite total diária da cidade, como você faria? Informações adicionais - número de produtores de leite da cidade: \(7.309\); Quantidade média de vacas por produtor (média da amostra): 11,80 vacas/produtor; Número médio de vacas em lactação: 8,075.
-
-
2.1.6 Utilizar os dados do exercício 2.1.2 e estimar a média, moda e mediana.
-
2.1.7 Foi realizada na região oeste do Paraná, no município de Marechal Cândido Rondon, em \(1992\), um levantamento de índices zootécnicos amostrando-se \(20\) produtores rurais, atendidos pelo plano “Panela Cheia” (Roesler 1997). Os resultados dos intervalos de parto (em meses) dos \(20\) produtores estão apresentados a seguir.
11,80 11,90 12,00 12,30 12,80 12,99 13,10 13,50 13,80 14,10 14,55 14,65 14,70 15,00 15,10 15,20 15,50 15,80 15,90 15,96 -
a) Estimar a amplitude total, variância, desvio padrão e o desvio médio.
-
b) Obter o coeficiente de variação.
-
c) Obter o erro padrão da média e descrever como você diferencia o que mede o desvio padrão e o que mede o erro padrão da média.
-
d) Obter o coeficiente de precisão da média para esses dados e para os dados da produtividade leiteira (exercício 2.1.4) e verificar em qual dos casos a média foi estimada com mais precisão.
-
e) Em cada caso anterior, comentar sobre o significado da estimativa obtida e sobre a forma que elas devem ser aplicadas.
-
f) Se cada dado for dividido por \(12\), para se obter o intervalo de partos em anos, quais são os novos valores da amplitude, variância, desvio padrão, coeficiente de variação, desvio médio e erro padrão da média?
-
g) Verificar se o teorema de Tchebichev foi atendido neste exemplo, dado \(P(\bar {X}-kS<X_i<\bar {X}+kS)\ge 1-\dfrac {1}{k^2}\), para \(k=1\), \(2\) e \(5\).
-
-
2.1.8 Fazer a distribuição de frequência dos dados do exercício 2.1.7 e calcular:
-
a) Amplitude, variância, desvio padrão, coeficiente de variação e o erro padrão da média?
-
b) Fazer a comparação desses valores com os obtidos no exercício anterior, e discutir sobre as razões das possíveis diferenças observadas.
-
c) Se você fosse solicitado a representar os dados por duas medidas, quais medidas você usaria e por quê?
-
d) Após o programa Panela Cheia, o intervalo de partos apresentou média de 13,85 e desvio padrão de 2,00 meses. Qual é a situação que apresentou maior variabilidade, antes ou após o programa? Justificar sua resposta.
-
-
2.1.9 Demonstrar as seguintes propriedades da variância:
-
i. Seja \(Y_i = X_i + k\), em que k é uma constante. Sejam, ainda, \(\bar {X}\) a média e \(S^2_X\) a variância amostral dos \(n\) valores de \(X\). Mostrar que \(S^2_Y = S^2_X\).
-
iii. Demonstrar como ficam os estimadores da amplitude, do desvio médio, do desvio padrão, do erro padrão da média, do coeficiente de precisão e de variação das variáveis \(Y\) e \(Z\) dos itens 2.1.9i e 2.1.9ii.
-
-
2.1.10 Obter as estimativas da amplitude total, variância, do desvio padrão, do coeficiente de variação e do erro padrão da média para os dados de galhas de nematóides (exercício 2.1.2).
-
2.1.11 Estimar o coeficiente de assimetria e curtose dos dados da produtividade leiteira da amostra de \(30\) produtores de Marechal Cândido Rondon e discutir os resultados encontrados.
-
2.1.12 A seguir, estão apresentadas estimativas do coeficiente de assimetria e de curtose em várias amostras. Classificá-las quanto à simetria e grau de achatamento da distribuição de frequência.
Coeficiente de Coeficiente de Classificação da Classificação do grau simetria curtose simetria de achatamento +0,5 3,0 …
-2,0 1,0 …
+2,0 2,0 …
+3,0 3,0 …
+0,0 3,0 …
+0,0 3,5 …
-3,0 4,5