HOME
ESTATÍSTICA
AULA Nº 18
UNIDADE 7 - REGRESSÃO E CORRELAÇÃO                                          Aula 19

7.1 – INTRODUÇÃO

         Após uma coleta de dados referentes a duas ou mais variáveis para uma mesma amostra é comum tentar estabelecer uma relação matemática entre estas variáveis.

A primeira providência para se determinar a relação é construir um gráfico em um sistema de coordenadas retangulares, obtendo então o que normalmente é chamado de diagrama de dispersão.  
    
          Pelo diagrama, muitas vezes, é possível visualizar a curva que melhor se aproxima dos pontos da distribuição. Esta curva é denominada curva aproximadora.
          
Tomemos,  por exemplo as distribuições abaixo:

 

(a) (b)
(c) (d)

Dos estudos da Matemática pode-se reconhecer que, em:
(a) não há previsão da curva aproximada;
(b) a curva aproximada é uma parábola (y = ax2 + bx + c);
(c) a curva aproximadora é uma reta ( y = ax + b);
(d) a curva aproximadora é uma hipérbole (y = a/x + b).

         O processo de ajustamento de uma distribuição de variáveis a uma curva é denominado regressão. A relação matemática entre as variáveis pode ser obtida em função de x ou em função de y.

         A equação de y em função de x, y = f(x) é denominada equação de regressão de y sobre x e a equação de x em função de y,
x = f(y) é denominada equação de regressão de x sobre y.

 É aconselhável obter as duas equações e verificar qual delas é a de melhor ajuste. As duas formas também são interessantes quando se deseja interpolar, isto é, dado um valor (fora da tabela) de x calcular o valor de y a ele associado ou quando dado um valor de y (fora da tabela) determinar um valor de x associado a ele.

          Tendo em vista os objetivos deste curso analisaremos apenas a regressão linear usando o método dos mínimos quadrados.

Para um estudo mais amplo, veja o conteúdo de Cálculo Numérico contido no site http://br.geocities.com/cesariof .

7.2 – COEFICIENTE DE CORRELAÇÃO ENTRE DUAS VARIÁVEIS

            A avaliação quantitativa do ajuste das variáveis a equação de uma curva se faz por um número, entre -1 e 1, denominado coeficiente de correlação. Este coeficiente indica o grau em que as duas variáveis se ajustam segundo uma equação matemática.

         Definição: Sejam x e y duas variáveis pesquisadas  e y = f(x) a equação ajustada ao conjunto de valores obtidos para x e y. Define-se o coeficiente de correlação R entre as duas variáveis por:

                                             

Onde:  –
  - denomina-se variação esperada;
 
– denomina-se variação total;

- são os valores de y calculados a partir da relação matemática determinada para as duas variáveis, e
  - é a média dos valores tabelados para y.
           A expressão acima, pode também ser escrita na forma: 
R2 = (variação esperada)/(variação total).

Os valores de R pertencem sempre ao intervalo [-1, 1]. Se R = 1 ou R = -1 as variáveis apresentam uma correlação perfeita. À medida que R se aproxima de 0 por valores menores ou maiores que zero, as variáveis não apresentam correlação.

         Entretanto, é bom não confundir correlação com dependência. Duas grandezas podem ter um ótimo grau de correlação (próximo de –1 ou de + 1) e não apresentar nenhuma dependência. Neste caso, a equação de regressão não tem nenhuma validade.
        Tomando, por exemplo, as variáveis X = eleitores que escolheram um candidato A e Y = eleitores fumantes selecionados em uma mesma amostra. A tabela amostral pode apresentar um alto grau de correlação, mas, provavelmente, as duas variáveis não apresentam nenhuma relação de dependência.


7.3 – COEFICIENTE DE CORRELAÇÃO LINEAR

         A definição do coeficiente de correlação apresentada no item anterior pode ser usada para qualquer curva de regressão. Entretanto, no seu uso, é necessário determinar a equação dessa curva antes de calcular o coeficiente.
           No caso específico de uma regressão linear, outras fórmulas podem ser usadas. Entre elas destacamos a fórmula de Pearson, que é dada por

Onde n é o número de pares de observações.

         Os limites de R são –1 e +1, ou seja –1 < R < 1, R pertence ao intervalo [-1, +1].
Se:
R = +1,  a correlação linear entre X e Y é perfeita positiva
R = -1,   a correlação linear entre X e Y é perfeita negativa.
R = 0,   não existe correlação linear entre X e Y.

         Geralmente se estabelece uma classificação para a intensidade da correlação linear, ou seja, qual é a qualidade do ajuste dos dados à reta de regressão. A classificação é assim constituída:
0 < | R | < 0,3, correlação muito fraca, provavelmente a relação matemática se afasta dos dados .
0,3 < | R | < 0,6 correlação relativamente fraca.
0,6 < | R | < 1  dados fortemente correlacionados.

           A tabela a seguir mostra os dados coletados para as variáveis x e y bem como os elementos necessários para o cálculo do coeficiente de correlação linear.



O valor do coeficiente de correlação linear é r = 0,999452. Como  r > 0 e 0,6 < r < 1, as variáveis x e y são fortemente correlacionadas. Ou seja, a reta de regressão linear, terá declividade positiva e apresentará um bom ajuste ao conjunto de pontos da tabela.

         O coeficiente de correlação linear pode ser calculado facilmente no EXCEL e no BrOffice.
Para o EXCEL, após digitar a tabela, 
(1) clique em uma célula fora da área da tabela. Nesta célula digite =PEARSON(  . 
(2) A seguir posicione o mouse sobre o primeiro valor de x e, mantendo o botão do mouse pressionado, arraste o ponteiro até o último valor de x. Na célula deverá ser exibido =PEARSON(C1:C5  onde C1 é a célula contendo o primeiro valor de x e C5 a célula contendo o último valor de x. Observe que C1 e C5 devem variar de acordo com a localização dos valores de x.



(3) Digite à frente da fórmula o sinal de ponto e vírgula (;). 
(4)
Selecione os valores de y conforme feito para selecionar os valores de x. 
(5) Complete a fórmula com o sinal que fecha parênteses.
A célula deverá então exibir: =PEARSON(C1:C5;D1:D5) dependendo das células usadas na tabela.
(6) Pressione o botão ENTER. Na célula será exibido então o valor do coeficiente de correlação.

         O processo usado no BrOffice é semelhante. Basta substituir o comando PEARSON pelo comando CORREL.


Criação e editoração Prof. Cesário Ferreira          PÁGINA INICIAL            Aula 19