Modelo logit e probit em stata forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital, ajudando o Grupo de Consultoria Estatal, dando um presente. Análise de dados da Stata. Exemplos. Regressão Logística. Informações sobre a versão: O código para esta página foi testado em Stata 12. A regressão logística, também chamada de modelo logit, é usada para modelar Variáveis ​​de resultado dicotômicas. No modelo logit, as probabilidades de log do resultado são modeladas como uma combinação linear das variáveis ​​preditoras. Observe: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange a limpeza e verificação de dados, verificação de pressupostos, diagnósticos de modelos e possíveis análises de acompanhamento. Exemplos de regressão logística Exemplo 1: Suponha que estamos interessados ​​nos fatores que influenciam se um candidato político ganha uma eleição. A variável resultado (resposta) é binária (01) ganha ou perde. As variáveis ​​preditoras de interesse são a quantidade de dinheiro gasto na campanha, a quantidade de tempo gasto fazendo campanha negativamente e se o candidato é ou não um titular. Exemplo 2: um pesquisador está interessado em como as variáveis, como o GRE (pontuação do Exame Grau de Graduação), o GPA (nota média) e o prestígio da instituição de graduação, permitem a admissão na pós-graduação. A variável de resposta, admitida não admite, é uma variável binária. Descrição dos dados Para a nossa análise de dados abaixo, vamos ampliar o Exemplo 2 sobre entrar na pós-graduação. Nós geramos dados hipotéticos, que podem ser obtidos no nosso site. Este conjunto de dados tem uma variável de resposta binária (resultado, dependente) chamada admitir. Existem três variáveis ​​preditoras: gre. Gpa e classificação. Trataremos as variáveis ​​gre e gpa como contínuas. O ranking variável assume os valores de 1 a 4. Instituições com uma classificação de 1 têm o maior prestígio, enquanto que aqueles com uma classificação de 4 têm o menor. Métodos de análise que você pode considerar Abaixo está uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros já caíram fora de favor ou têm limitações. Regressão logística, o foco desta página. Regressão Probit. A análise Probit produzirá resultados de regressão logística semelhante. A escolha de probit versus logit depende em grande parte das preferências individuais. Regressão OLS. Quando usado com uma variável de resposta binária, este modelo é conhecido como um modelo de probabilidade linear e pode ser usado como uma maneira de descrever probabilidades condicionais. No entanto, os erros (isto é, os resíduos) do modelo de probabilidade linear violam os pressupostos de homossexia e normalidade de erros da regressão OLS, resultando em erros padrão inválidos e testes de hipóteses. Para uma discussão mais completa desses e outros problemas com o modelo de probabilidade linear, veja Long (1997, pág. 38-40). Análise de função discriminante de dois grupos. Um método multivariável para variáveis ​​de resultado dicotômicas. Hotellings T 2. O resultado 01 é transformado na variável de agrupamento, e os preditores anteriores são transformados em variáveis ​​de resultado. Isso produzirá um teste geral de significância, mas não dará coeficientes individuais para cada variável, e não está claro até que ponto cada coeficiente de resposta é ajustado para o impacto dos outros fatores. Cronograma logístico Abaixo, usamos o comando logit para estimar um Modelo de regressão logística. O i. Antes da classificação, indica que a classificação é uma variável de fatores (ou seja, variável categórica), e que ela deve ser incluída no modelo como uma série de variáveis ​​de indicadores. Observe que essa sintaxe foi introduzida no Stata 11. Na saída acima, primeiro vemos o registro de iteração, indicando a rapidez com que o modelo convergeu. A probabilidade de log (-229.25875) pode ser usada em comparações de modelos aninhados, mas não vamos mostrar um exemplo disso aqui. Também no topo da saída, vemos que todas as 400 observações em nosso conjunto de dados foram usadas na análise (menos observações teriam sido usadas se qualquer uma de nossas variáveis ​​tivesse valores faltantes). A razão de verossimilhança do qui-quadrado de 41,46 com um valor de p de 0,0001 nos diz que nosso modelo como um todo se encaixa significativamente melhor do que um modelo vazio (ou seja, um modelo sem preditores). Na tabela, vemos os coeficientes, seus erros padrão, a estatística z, os valores p associados e o intervalo de confiança 95 dos coeficientes. Tanto o gre como o gpa são estatisticamente significativos, assim como as três variáveis ​​de indicadores para o ranking. Os coeficientes de regressão logística dão a alteração nas probabilidades de log do resultado para um aumento de uma unidade na variável preditor. Por cada mudança de unidade em gre. As probabilidades de registro de admissão (versus não admissão) aumentam em 0,002. Para um aumento de uma unidade em gpa. As probabilidades de registro de serem admitidas na escola de pós-graduação aumentam em 0.804. As variáveis ​​do indicador para classificação possuem uma interpretação ligeiramente diferente. Por exemplo, tendo frequentado uma instituição de graduação com classificação de 2, em relação a uma instituição com uma classificação de 1, diminui as probabilidades de admissão em 0.675. Podemos testar um efeito geral de classificação usando o comando de teste. Abaixo, vemos que o efeito geral do ranking é estatisticamente significativo. Também podemos testar hipóteses adicionais sobre as diferenças nos coeficientes para diferentes níveis de classificação. Abaixo, nós testamos que o coeficiente para o ranking 2 é igual ao coeficiente para o ranking 3. (Note que, se quisermos estimar essa diferença, poderíamos fazê-lo usando o comando lincom.) Você também pode exponencializar os coeficientes e interpretá-los como probabilidades - índices. A Stata fará essa computação para você se você usar a opção ou, ilustrada abaixo. Você também pode usar o comando logístico. Agora, podemos dizer isso por um aumento de uma unidade na gpa. As chances de serem admitidas na pós-graduação (versus não admitidas) aumentam em um fator de 2,23. Para obter mais informações sobre a interpretação de odds ratios, veja a nossa página de perguntas frequentes. Como interpreto odds ratios na regressão logística. Você também pode usar probabilidades previstas para ajudá-lo a entender o modelo. Você pode calcular as probabilidades previstas usando o comando de margens, que foi introduzido em Stata 11. Abaixo, usamos o comando de margens para calcular a probabilidade prevista de admissão em cada nível de classificação. Segurando todas as outras variáveis ​​no modelo por sua conta. Para obter mais informações sobre o uso do comando de margens para calcular as probabilidades previstas, consulte nossa página Usando margens para probabilidades previstas. No resultado acima, vemos que a probabilidade prevista de ser aceita em um programa de pós-graduação é de 0,51 para as instituições de graduação de maior prestígio (rank1) e 0,18 para as instituições mais bem classificadas (rank4), segurando gre e gpa aos seus meios. Abaixo, nós geramos as probabilidades previstas de valores de gre de 200 a 800 em incrementos de 100. Como não especificamos atmeans ou usado em (.) Para especificar valores com as outras variáveis ​​preditoras são mantidas, os valores na tabela são Probabilidades médias previstas calculadas utilizando os valores de amostra das demais variáveis ​​preditoras. Por exemplo, para calcular a probabilidade média prevista quando gre 200, a probabilidade prevista foi calculada para cada caso, usando os valores de casos de classificação e gpa. Com gre definido para 200. Na tabela acima, podemos ver que a probabilidade preditiva média de ser aceita é de apenas 0,167 se o escore GRE for 200 e eleva-se para 0,414 se o escore GRE for 800 (em média entre os valores da amostra de gpa e classificação ). Também pode ser útil usar gráficos das probabilidades previstas para entender e apresentar o modelo. Podemos também querer ver medidas de como o modelo se encaixa. Isso pode ser particularmente útil ao comparar modelos concorrentes. O comando de comando escrito pelo usuário produz uma variedade de estatísticas de ajuste. Você pode encontrar mais informações sobre fitstat digitando findit fitstat (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar findit). Coisas a considerar Células vazias ou células pequenas: você deve verificar se há células vazias ou pequenas fazendo uma tabela cruzada entre preditores categóricos e a variável de resultados. Se uma célula tiver muito poucos casos (uma célula pequena), o modelo pode tornar-se instável ou pode não ser executado. Separação ou quase separação (também chamada de previsão perfeita), condição em que o resultado não varia em alguns níveis das variáveis ​​independentes. Veja a nossa página Perguntas frequentes: o que é uma separação completa ou quase completa na regressão de logística e como lidar com eles para obter informações sobre modelos com previsão perfeita. Tamanho da amostra: ambos os modelos logit e probit requerem mais casos do que a regressão OLS porque eles usam técnicas de estimação de máxima verossimilhança. Às vezes, é possível estimar modelos para resultados binários em conjuntos de dados com apenas um pequeno número de casos usando regressão logística exata (usando o comando exlogístico). Para obter mais informações, consulte nosso exemplo de análise de dados para regressão logística exata. Também é importante ter em mente que, quando o resultado é raro, mesmo que o conjunto de dados geral seja grande, pode ser difícil estimar um modelo logit. Pseudo-R-quadrado: existem muitas medidas diferentes de psuedo-R-quadrado. Todos tentam fornecer informações semelhantes às fornecidas pelo R-squared na regressão OLS no entanto, nenhuma delas pode ser interpretada exatamente como R-squared na regressão OLS é interpretada. Para uma discussão de vários pseudo-R-squareds, consulte Long e Freese (2006) ou nossa página de FAQ O que são pseudo R-squareds Diagnostics: O diagnóstico para regressão logística é diferente daqueles para regressão OLS. Para uma discussão sobre o diagnóstico do modelo para regressão logística, consulte Hosmer e Lemeshow (2000, Capítulo 5). Observe que os diagnósticos realizados para a regressão logística são semelhantes aos feitos para a regressão probit. Em Stata, os valores de 0 são tratados como um nível da variável de resultado, e todos os outros valores não faltantes são tratados como o segundo nível do resultado. Dados em cluster: às vezes as observações são agrupadas em grupos (por exemplo, pessoas dentro das famílias, estudantes dentro das salas de aula). Nesses casos, você pode querer ver nossa página na não-independência dentro dos clusters. Referências Hosmer, D. Lemeshow, S. (2000). Regressão Logística Aplicada (Segunda Edição). Nova York: John Wiley Sons, Inc. Long, J. Scott, Freese, Jeremy (2006). Modelos de regressão para variáveis ​​categóricas dependentes usando o Stata (segunda edição). College Station, TX: Stata Press. Long, J. Scott (1997). Modelos de regressão para variáveis ​​categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software da Universidade da Califórnia. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar Manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Help the Stat Consulting Group, dando um presente Stata Data Analysis Examples Probit Regression Version info: O código para esta página foi testado em Stata 12. A regressão de Probit, também chamada de modelo probit, é usada para modelar Variáveis ​​de resultado dicotômicas ou binárias. No modelo probit, a distribuição normal padrão inversa da probabilidade é modelada como uma combinação linear dos preditores. Nota: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange a limpeza e verificação de dados, verificação de pressupostos, diagnósticos de modelos e possíveis análises de acompanhamento. Exemplos de regressão de probit Exemplo 1: Suponha que nos interessemos os fatores que influenciam se um candidato político ganha uma eleição. A variável resultado (resposta) é binária (01) ganha ou perde. As variáveis ​​preditoras de interesse são a quantidade de dinheiro gasto na campanha, a quantidade de tempo gasto fazendo campanha negativamente e se o candidato é um operador histórico. Exemplo 2: um pesquisador está interessado em como as variáveis, como o GRE (pontuação do Exame Grau de Graduação), o GPA (nota média) e o prestígio da instituição de graduação, permitem a admissão na pós-graduação. A variável de resposta, admitida não admite, é uma variável binária. Descrição dos dados Para a nossa análise de dados abaixo, vamos ampliar o Exemplo 2 sobre entrar na pós-graduação. Nós geramos dados hipotéticos, que podem ser obtidos no nosso site. Este conjunto de dados tem uma variável de resposta binária (resultado, dependente) chamada admitir. Existem três variáveis ​​preditoras: gre. Gpa e classificação. Trataremos as variáveis ​​gre e gpa como contínuas. O rango variável é ordinal, assume os valores de 1 a 4. Instituições com uma classificação de 1 tem o maior prestígio, enquanto aqueles com um ranking de 4 têm o menor. Nós trataremos a classificação como categórica. Métodos de análise que você pode considerar Abaixo está uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros já caíram fora de favor ou têm limitações. Regressão Probit, o foco desta página. Regressão logística. Um modelo logit produzirá resultados similares regressão probit. A escolha de probit versus logit depende em grande parte das preferências individuais. Regressão OLS. Quando usado com uma variável de resposta binária, este modelo é conhecido como um modelo de probabilidade linear e pode ser usado como uma maneira de descrever probabilidades condicionais. No entanto, os erros (isto é, os resíduos) do modelo de probabilidade linear violam os pressupostos de homossexia e normalidade de erros da regressão OLS, resultando em erros padrão inválidos e testes de hipóteses. Para uma discussão mais completa desses e outros problemas com o modelo de probabilidade linear, veja Long (1997, pág. 38-40). Análise de função discriminante de dois grupos. Um método multivariável para variáveis ​​de resultado dicotômicas. Hotellings T 2. O resultado 01 é transformado na variável de agrupamento, e os preditores anteriores são transformados em variáveis ​​de resultado. Isso produzirá um teste geral de significância, mas não dará coeficientes individuais para cada variável, e não está claro até que ponto cada coeficiente de resposta é ajustado para o impacto dos outros fatores. Critério do Probit Abaixo, usamos o comando probit para estimar um Modelo de regressão probit. O i. Antes da classificação, indica que a classificação é uma variável de fatores (ou seja, variável categórica), e que ela deve ser incluída no modelo como uma série de variáveis ​​de indicadores. Observe que essa sintaxe foi introduzida no Stata 11. Na saída acima, primeiro vemos o registro de iteração, indicando a rapidez com que o modelo convergeu. A probabilidade de log (-229.20658) pode ser usada nas comparações de modelos aninhados, mas não vamos mostrar um exemplo disso aqui. Também no topo da saída, vemos que todas as 400 observações em nosso conjunto de dados foram usadas na análise (menos observações teriam sido usadas se qualquer uma de nossas variáveis ​​tivesse valores faltantes). O coeficiente de verossimilhança do qui-quadrado de 41,56 com um valor de p de 0,0001 nos diz que nosso modelo como um todo é estatisticamente significativo, ou seja, ele se encaixa significativamente melhor do que um modelo sem preditores. Na tabela, vemos os coeficientes, seus erros padrão, a estatística z, os valores p associados e o intervalo de confiança 95 dos coeficientes. Ambos os gre dos. Gpa. E as três variáveis ​​de indicadores para classificação são estatisticamente significativas. Os coeficientes de regressão probit dão a alteração no índice z ou no índice probit para uma mudança de unidade no preditor. Para um aumento de uma unidade em gre. O z-score aumenta em 0,001. Para cada aumento de uma unidade em gpa. O z-score aumenta em 0,478. As variáveis ​​do indicador para classificação possuem uma interpretação ligeiramente diferente. Por exemplo, tendo frequentado uma instituição de graduação de 2, contra uma instituição com um grau de 1 (o grupo de referência), diminui o escore z em 0.415. Podemos testar um efeito geral de classificação usando o comando de teste. Abaixo, vemos que o efeito geral do ranking é estatisticamente significativo. Também podemos testar hipóteses adicionais sobre as diferenças nos coeficientes para diferentes níveis de classificação. Abaixo, nós testamos que o coeficiente para o ranking 2 é igual ao coeficiente para o ranking 3. Você também pode usar probabilidades previstas para ajudá-lo a entender o modelo. Você pode calcular as probabilidades previstas usando o comando de margens, que foi introduzido em Stata 11. Abaixo, usamos o comando de margens para calcular a probabilidade prevista de admissão em cada nível de classificação. Segurando todas as outras variáveis ​​no modelo por sua conta. Para obter mais informações sobre o uso do comando de margens para calcular as probabilidades previstas, consulte nossa página Usando margens para probabilidades previstas. Na saída acima, vemos que a probabilidade prevista de ser aceita em um programa de pós-graduação é de 0,52 para as instituições de graduação de maior prestígio (rank1) e 0,19 para as instituições mais bem classificadas (rank4), segurando gre e gpa aos seus meios. Abaixo, nós geramos as probabilidades previstas para valores de gre de 200 a 800 em incrementos de 100. Como não especificamos nenhum dos atmeans ou usado em (.) Para especificar valores nos quais as outras variáveis ​​preditoras são mantidas, os valores na tabela são Probabilidades médias previstas calculadas utilizando os valores de amostra das demais variáveis ​​preditoras. Por exemplo, para calcular a probabilidade média prevista quando gre 200, a probabilidade prevista foi calculada para cada caso, usando os casos de valor de classificação e gpa. E definir gre para 200. Na tabela acima, podemos ver que a probabilidade preditiva média de aceitação é de apenas 0,16 se o escore GRE for 200 e eleva-se para 0,42 se o escore GRE for 800 (em média nos valores de amostra de gpa e classificação ). Também pode ser útil usar gráficos das probabilidades previstas para entender e apresentar o modelo. Podemos também querer ver medidas de como o modelo se encaixa. Isso pode ser particularmente útil ao comparar modelos concorrentes. O comando de comando escrito pelo usuário produz uma variedade de estatísticas de ajuste. Você pode encontrar mais informações sobre fitstat digitando findit fitstat (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar findit). Coisas a considerar Células vazias ou células pequenas: você deve verificar se há células vazias ou pequenas fazendo uma tabela cruzada entre preditores categóricos e a variável de resultados. Se uma célula tiver muito poucos casos (uma célula pequena), o modelo pode tornar-se instável ou pode não ser executado. Separação ou quase separação (também chamada de previsão perfeita), condição em que o resultado não varia em alguns níveis das variáveis ​​independentes. Veja a nossa página Perguntas frequentes: o que é uma separação completa ou quase completa na regressão de logística e como lidar com eles para obter informações sobre modelos com previsão perfeita. Tamanho da amostra: ambos os modelos de probit e logit requerem mais casos do que a regressão de OLS porque eles usam técnicas de estimação de máxima verossimilhança. Às vezes, é possível estimar modelos para resultados binários em conjuntos de dados com apenas um pequeno número de casos usando regressão logística exata (usando o comando exlogístico). Para obter mais informações, consulte nosso exemplo de análise de dados para regressão logística exata. Também é importante ter em mente que quando o resultado é raro, mesmo que o conjunto de dados geral seja grande, pode ser difícil estimar um modelo probit. Pseudo-R-quadrado: existem muitas medidas diferentes de psuedo-R-quadrado. Todos tentam fornecer informações semelhantes às fornecidas pelo R-squared na regressão OLS no entanto, nenhuma delas pode ser interpretada exatamente como R-squared na regressão OLS é interpretada. Para uma discussão de vários pseudo-R-squareds, veja Long e Freese (2006) ou nossa página de FAQs O que são pseudo R-squareds Em Stata, os valores de 0 são tratados como um nível da variável de resultado e todos os outros valores não faltantes São tratados como o segundo nível do resultado. Diagnóstico: o diagnóstico para a regressão probit é diferente daqueles para regressão OLS. Os diagnósticos para modelos probit são semelhantes aos dos modelos logit. Para uma discussão sobre o diagnóstico do modelo para regressão logística, consulte Hosmer e Lemeshow (2000, Capítulo 5). Referências Hosmer, D. Lemeshow, S. (2000). Regressão Logística Aplicada (Segunda Edição). Nova York: John Wiley Sons, Inc. Long, J. Scott (1997). Modelos de regressão para variáveis ​​categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

Comments