terça-feira, 4 de dezembro de 2012

ESTATISTICA DESCRITIVA

ESTATÍSTICA DESCRITIVA
Distribuição e Frequência

O que se apresenta e porquê?
Porque:
  Dão sentido de informação e facilitam a interpretação
 Facilitam a compreensão do que se pretende ilustrar.

Como se apresentam os dados/informação?
-Tabelas
-Gráficos
-Mapas
Apresentação em Tabelas:
Tabelas são definidas como um conjunto de dados organizados em colunas e linhas para apresentar a frequência do acontecimento em cada categoria ou subdivisões de uma variável.

Uma tabela  de frequências relaciona as categorias ou classes de valores com o número de ocorrências, ou frequências , de observações que pertece a cada categorias ou classe.
Permitem-nos comparar os serviços de uma unidade sanitária ao longo do tempo ou com outras unidades sanitárias.

As categorias ou classes de valores devem ser:

Mutuamente exclusivas: cada valor observado só poderá pertecer a uma das categorias ou classe;



Exclusivas: as catedorias ou classes devem compreender todos os valores oservados.


No caso de Variaveis Qualitativas a construção de frequências é quase imediata, identificando valores que a variável assume, isto é categorias de nomes  fazendo a contagem do número de repetições que ocorre em cada categoria.

A constução de tabela de frequênca depende da definição das seguintes colunas:

1a Coluna: todas as k categorias ou valores distintos de xi;

2a Coluna: As frequência absolutas fi, ou seja o número de vezes que cada cada categoria (valor) foi observado(a).


3a Coluna: Frequências relativas fr - proporção de vezes que cada categoria(valor) foi observada(o).

4a Coluna: As freq. absoutas acomuladas, Fi, o número de ocorrências das categorias(valores) inferiores ou iguais á categoria (valor) actual.

5a Coluna: As freq. relativas a cumuladas, Fr, proporção de ocorrência das categorias (valores) inferiores ou igual á categoria(valor) actual

Deve ser possível entender e explicar seu conteúdo sem referência ao texto
Em pequenas tabelas, linhas verticais podem não serem necessárias.
Títulos claros e conciso dizendo o quê, onde e quando

NB: Pra dados qualitativos na escala nominal não se calculam as frequências (absloutas e relativas) (4a e 5a coluna)

Ex: Uma amostra de dimensao n, constituida por elementos que apresentam uma determinada k modalidades observadas: x1, x2, …xk. Construcao de tabela nestas condicoes.

Tabelas de Frequencias para variaveis Quantitativas-Descretas


Ex. Num estudo realizado numa maternidade da cidade de Maputo, registou-se o numero de suplementos alimentares dados diariamente a recem nascidos. Os valores registados sao:

    5 4 7 3 3 6 4 5 4 3 3 6 4 5 4 2 3 3 2 4

Tabelas de Frequencias para variaveis Quantitativas


Designa-se variável contínua ou classificada uma variável cujo dominio foi segmentado, dando origem a conjuntos de classes sucessivas e disjuntas.

Não e adequado usar a apresentação anterior quando a variável é continua ou discreta assumindo valores num intervalo grande.

E aconselhavel efectuar um agrupamento dos dados em classes de valores.

O numero de classes a considerar nao deve ser demasiado reduzido nem excessivo porque pode perder-se muita informacao ou perder-se a funcionlidade que decorre na organizacao dos dados em classes (habitualmente 5≤k≤20).


Antes da contrucao da tabela e necessario encontrar uma forma de relacionamento entre as tres variaveis: Dimensao da amostra, variabilidade e número de classes. Nisto aplica-se a Regra de Sturges.

    Onde K sera o numero de classes.


A regra de Sturges exige que seja satisfeita a condição: dois elevada a k devera ser maior ou igual ao numero amostral.

K=1+3,32*log(n); log corresponde a função logarítmica na base 10.

Ex: A tabela abaixo apresenta 20 observações relativas ao indice pluviometrico Milimetro de chuva

144   152    159     160
160    151    157    146
154    145    141    150
142    146    142    141
141    150    143    158

a) Determinar o número de classe pela regra de Sturges.
    b) Construir a tabela de frequência absolutas simples
    c) Construir a tabela de frequência absolutas acumuladas
    d)Determinar as frequências absoulutas relativas
    e)Determinar as frequências absoulutas relativas

Resulução: K= 1+3.3log10n
N=20
K=5,29 ou K=5
   
Tabelas de Frequencias para variaveis Quantitativas continuas
At= 160-141=19
C=At/k=19/5=3.8; c=4


Representação Gráfica para diferentes tipos de variaveis

Um gráfico é um método de apresentação de dados quantitativos num sistema de coordenadas.
A forma mais comum é construída em dois eixos de coordenadas perpendiculares entre si e divididas em intervalos iguais.
Por convenção, a linha horizontal corresponde ao eixo do x e a linha vertical ao eixo do y.

Analisar as relações entre variáveis
Sua construção depende do tipo de dados, qualitativos ou quantitativos


Tipos de Gráficos:
-Diagramas de barras
-Histogramas
-Diagramas lineares
-Gráficos circulares
-Diagramas de associação
(scatter diagrams)

Na escolha da representação gráfica e necessário ter em conta os seguintes aspectos.

1. Natureza e escala de medicao da variavel;

2. Objectivo da apresentação gráfica( o que pretende evidenciar).

Representacao Grafica para variaveis Qualitativa e Quantitativas Discreta

No eixo das abcissas sao representados os valores (categorias) no caso de variaveis qualitativas.

No eixo das ordenadas são representados as respectivas frequencias( absolutas ou relativas)

O grafico de pizza e particularmente utilizada na representaca da distribuicao de freq. de variaveis qualitativas e usa-se quando o numero de categorias e pequeno ( nao superior a 10)

Representação Gráfica para diferentes tipos de variaveis
Os gráficos mais utilizados para representar conjuntos de dados são:
Gráfico circular- dados qualitativos

Gráfico de barras –dados qualitativos e quantitativos discretos.

Gráfico de frequências acumuladas- dados qualitativos na escala ordinal ou quantitativos discretos

Histograma- dados quantitivos contínuos;
Polígono de frequência- dados quantitativos;

Polígono de frequência acumuladas- dados quantitativos contínuos;

Caixa de bigotes- dados não agrupados quantitativos

                         Estatística Descritiva
Depois de contituída(s) a(s) amostra(s) de acordo com as práticas correctas da teória da amostragem, torna-se necessário caracterizar as amostras de acordo com as medidas descritivas  que sao:

Medidas de Tendência Central ou localizacao;

Medidas de Dispersão ou Variabilidade

1-Medidas de Tendência Central

As medidas de tendencia central mais utilizadas no contexto  do conjunto de dados são:

Média Aritmética;
 Moda e
 Mediana.
Média Aritmética ou Amostral- e a medida de tendência central mais utilizada.
É o ponto de equilibrio das observações.
  
   Se uma amostra é constituida pelos valores { x1, x2,…x3} A média artmética é a soma de todos os valores observados da variável X dividida pelo número de observações.

                                   Média Aritmética Simples
Onde: xi- valores observados
                n- Dimensão da amostra
  
Ex: Registou-se o tempo de sobrevivência, em meses de 5 doentes com cancro no pulmão, tendo-se obtido os seguintes resultados:
8.5   9.2   7.3   6.8    10.1

Identifique a variável em estudo
Determine o valor da média


Mediana
    Amediana(Md) e uma medida de tendência central, divide uma distribuição ordenada de dados em duas partes iguais.


Se a amostra tiver dimensão ímpar, a mediana coincide com a observação central.

Mediana
Para calcularmos a mediana é preciso ordenarmosos dados: x(1), x(2), ..., x(n).
A mediana de um conjuntode dados é:

Md= x(n+1/2), se n é ímpar
Md= [x(n/2) +x(n/2+1) ]/2, se n é par

A mediana é mais robusta que a média para erros ou a observações afastadas

Exemplo:considere os seguintes valores referentes ao numero de filhos por familias. Qual é o valor da mediana relativa a variável numero de filhos por familia
A mediana corresponde ao valor da variavel na posição quatro da amostra, ordenada por ordem crescente.

A mediana é igual a 3. podemos afirmar que 50% das famílias tem no máximo 3 filhos

Se a amostra tiver dimensão par, a mediana toma o valor da média das duas observações mais centrais.

Ex : considere o número de chamadas telefónicas num serviço de emergência médica entre 2:00 h a 3:00h da madrugada, durante 6 dias

MEDIANA PARA DADOS CLASSICADOS

A determinação da mediana quando se dispõe de dados classificados resume-se em dois passos:

1) Determinar a classe a que pertence a mediana identificando a classe com maior frequência.

Determinar o valor da mediana através de uma das expressões ou fórmulas.

Moda
Valor que ocorre com maior freqüência.

   Ao contrário do que acontece com a mediana e a média,  a moda numa amostra pode possuir mais do que uma.

Ex:Considere o registo feito em 5 centros de saude, relativos ao numero de medicamento prescrito a doentes numa consulta de malaria e a respectiva frequencia de ocorrencia.

Moda para dados classificados


Moda Bruta- o método mais rudimentar  consiste na determinação do ponto médio da classe modal


Método de king- basea-se na influência que as frequências das  classes adjacentes á classe moda tem sobre esta e não entra em linha de conta com as frequência da classe modal

Método de Czuber-neste método entra em linha as frequência das classes adjacentes e a frequência da classe modal.

Em distribuição diz-se:
-Amodal quando não existe moda
-Unimodal quando apenas tem uma moda
-Bimodal quando existem duas
-Multimodal quando existe três ou mais.


                       Resumo das medidas de localização:

Média Aritmética

É uma medida de fácil interpretação;
No seu cálculo entra incluem todas as observações e é influeciada pelos valores extremos( outliers);
É uma medida de excelência quando os dados são provenientes de uma população com distribuição gaussiana ou aproximadamente gaussiana
Em distribuições com classes abertas, o valor da média poderá ser inviesado qndo não informação adicional que nos permita avaliar com precisão os limites dessas classes.

Moda

Quando existe, e é única, a moda é muito fácil de interpretar;
A moda pode não existir ou então existir mais do que uma moda neste último caso, a sua interpretação é difícil;
Pode ser determinada em qualquer situação, mesmo qundo a distribuição está em classes abertas;
O valor da moda não é influenciado por valores extremos(outliers) portanto é uma medida resistente.













Mediana

É uma medida que é determinada pelo número de observações e não pelo seu valor;
Os valores extremos (outliers) quer sejam grandes ou pequenos não afectam o valor da mediana sendo portanto uma mediada resistente;
É utilizada sobretudo para caracterizar distribuições fortementes assimétricas por não ser afectada pelos valores extremos.











                              Medidas de variabilidade
As MTC ou localização são necessárias mas não sao suficientes para caracterizar um conjunto de observações.

Precisamos de outras medidas que nos indiquem se as observações estão concentradas ou dispersas em torno da media

Essas medidas serão pequenas se os dados forem próximos e grandes se eles estiverem muito dispersos.
Amplitude do Intervalo de Variação ou Amplitude Total
    É a diferença entre o maior valor da amostra{x(n)} e o menor valor da amostra{x(1)}
At=Xmax-Xmin


Ex.A tabela a seguir mostra o conjunto de dados relativos ao número de semanas que 8 utentes esperam para marcação de condulta externa num determinado Hospital


Medidas de Posiçcão: Quartis, Decis e Percentis

Quartis
   
Os quartis são valores que dividem a distribuicao da variável observada  em 4 partes iguais.

Os decis dividem a distribuição em 10 partes iguais. Os percentis dividem a distribuição em 100 partes iguais.

A mediana corresponde ao percentil 50, ao decil 5 e ao quartil 2 



Como determinar os Quartis

Para determinar os quartis, tal como ocorre na determinação da mediana, é necessário ordenar os dados.

    Exemplo:? 15 15 15 16 17 17 17 17 18 19 19 20 20 20 20
    O primeiro passo para determinar os quartis é localizá-los:
Q1: localização (1/4)*15=3.75~4  entao Q1=16
Q2: localização  (2/4)*15=7.5~8 entao Q2=17
Q3: localização (3/4)*15=11.25~12 entao Q3=20

Determinar Quartis para dados Agrupados
Quando os dados se encontram agrupados em classes, após identificar a classe a que corresponde o quartil que pretendemos determinar, aplica-se a expressão seguinte:

Qi=li(Qi)+[(iN/4)-(Fca)/fi]*a(Qi)

    Ex:Considere-se que se pretende determinar os quartis na distribuição de frequências para as classificações obtidas num teste de estatística.

Determinar Decis e Percentis
À semelhança do que se fez no cálculo da mediana e dos quartis o primeiro passo consiste em determinar a posição destes indicadores.

A posição do 1º decil é efectuada dividindo o nº de dados por 10

 As posições dos percentis obtém-se multiplicando o nº de dados por (ordem do percentil)/100.

Amplitude inter-Quartis- e a distancia entre o 3o quartil e o 1o e quantifica a disprsao de 50% das observacoes centrais.
IQ=Q3-Q1
Q1=P25
Q2=P50
Q3=P75


                                         Medidas de variabilidade





Vantagens e desvantagens Amplitude inter-Quartis

1-Vantagens
 -E facil de calcular e de interpretar
- Nao influeciado pelos outliers( valores extremos)

 2-Desvantagens: Despreza 50% das observacoes da amostra.
Desvio médio absoluto, Varância e desvio padrão
Variância- e e a media dos quadrados dos desvios em relação a média.

Vantagens: No seu cálculo entram todas as observações

Desvantagens: Não é uma estatística fácil de interpretar  uma vez que  a unidade é expressa ao quadrado





Desvio Padrão- raiz quadrada da variância, portanto o desvio padrão será denotado por S.

É a medida mais usada na comparação de diferenças entre grupos.

Fornece um número que permite especificar quão acima ou quão abaixo da média está um determinado valor.
Quanto maior o desvio-padrão, maior a variabilidade dos dados.

Dispersão Relativa - Coeficiente de Variação
    O CV é a razão entre o desvio padrão e a média de  um conjunto de dados. Ele expressa a variação relativa(%) presente no conjunto de dados em relação á média







    Alguns analistas consideram:
Baixa dispersão:CV ≤15%
Média dispersão:15%< CV <30%
Alta dispersão: CV ≥30%
O coeficiente de variaçao serve para comparar médias diferentes de medidas iguais ou diferentes porque dá o desvio padrão como percentagem de média artimética.

 

Sem comentários:

Enviar um comentário