Monday 5 June 2017

Rvfplot In Stata Forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajudar o Grupo de Consultoria Estatal dando um presente Notas de Classe Stata Analisando Dados 1.0 Comandos Stata nesta unidade Análise de variância Cria variáveis ​​dummy durante a estimativa do modelo Previsões após estimação do modelo Estimativas e gráficos de densidade do núcleo Gráficos padronizados Gráfico normal Gráficos um gráfico de quantile Gráficos de um gráfico residual versus encadernado Testar hipóteses lineares após estimativa do modelo Tabelas cruzadas com teste de qui-quadrado Testar a igualdade de pares de dados correspondentes Teste de classificação assinado de pares equivalentes de Wilcoxon Teste de duas amostras de Mann-Whitney Analógico não paramétrico para o One-way anova 2.0 Demonstração e explicação 2.1 teste chi-quadrado de freqüências Aqui está o comando tabular para uma tabela cruzada com uma opção para calcular o teste qui-quadrado de independência e medidas de associação. Aqui está o comando com uma opção para exibir as freqüências esperadas para que se possa verificar células com valores esperados muito pequenos. 2.2 testes t Este é o teste t de uma amostra, testando se a amostra de pontuação de escrita foi extraída de uma população com uma média de 50. Este é o teste t pareado, testando se a média de escrita é ou não igual à Significa ler. Este é o teste t independente de duas amostras com variâncias agrupadas (iguais). Este é o teste t independente de duas amostras com variâncias separadas (desiguais). 2.3 Análise de Variância O comando anova, sem surpresa, realiza análise de variância (ANOVA). Aqui está um exame de uma análise de variância unidirecional. Neste exemplo, o comando anova é usado para realizar uma análise de variância fatorial de duas vias (ANOVA). Aqui está um exemplo de uma análise de covariância (ANCOVA) usando o comando anova. 2.4 regressão regressão linear OLS de baunilha simples. No exemplo abaixo, executamos a regressão com erros padrão robustos. Isso é muito útil quando existe heterogeneidade de variância. Esta opção não afeta as estimativas dos coeficientes de regressão. O comando de previsão calcula previsões, resíduos, estatísticas de influência e similares após um comando de estimativa. O padrão mostrado aqui é calcular os escores previstos. Ao usar a opção resid, o comando predito calcula o residual. O comando de lista exibe os valores das variáveis ​​que geramos. A opção em 120 estipula que apenas as 20 primeiras observações sejam exibidas. O comando kdensity com a opção normal exibe um gráfico de densidade dos resíduos com uma distribuição normal sobreposta ao gráfico. Isto é particularmente útil para verificar que os resíduos são normalmente distribuídos, o que é uma suposição muito importante para a regressão. O comando pnorm produz um gráfico de probabilidade normal e é outro método de teste se os resíduos da regressão são normalmente distribuídos. O comando qnorm produz um gráfico quantile normal. É ainda outro método para testar se os resíduos são normalmente distribuídos. A trama de qnorm é mais sensível aos desvios da normalidade nas caudas da distribuição, enquanto que a trama do pnorm é mais sensível aos desvios perto da média da distribuição. Rvfplot é um comando de conveniência que gera uma parcela do valor residual versus os valores ajustados que é usado após regressão ou anova. Criando variáveis ​​dummy usando o comando xi O prefixo xi é usado para variáveis ​​categóricas de código falso, como prog. O prog preditor tem três níveis e requer duas variáveis ​​codificadas. O comando de teste é usado para testar o efeito coletivo das duas variáveis ​​codificadas falsas em outras palavras, ela testa o efeito principal do prog. O prefixo xi também pode ser usado para criar variáveis ​​dummy para prog e para a interação de prog e leitura. O primeiro comando de teste testa a interação geral eo segundo comando de teste testa o efeito principal do prog. 2.5 Regressão logística Para demonstrar os comandos de regressão logística, criaremos uma variável dicotômica chamada honcomp (composição de honras) para usar como nossa variável dependente. Isso é apenas para fins ilustrativos. O comando logístico padrão produz a saída em odds ratios, mas pode exibir os coeficientes se a opção coef for usada. Os mesmos resultados exatos podem ser obtidos usando o comando logit, que produz coeficientes como padrão, mas exibirá o odds ratio se a opção ou for usada. 2.6 Testes não paramétricos O signtest é o análogo não paramétrico da prova t de amostra única. O comando signrank calcula um teste Wilcoxon sign-rank, o análogo não paramétrico do teste t pareado. O teste do ranksum é o análogo não paramétrico da prova independente de duas amostras e é conhecido como o teste de Mann-Whitney ou Wilcoxon. O comando kwallis calcula um teste de Kruskal-Wallis, o análogo não-paramétrico da ANOVA unidirecional. 3.0 Para obter mais informações, o conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS Em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa Digital e Educação Ajude o Grupo de Consultoria Stat ao oferecer um presente de Regressão com as Respostas de Auto-avaliação do Capítulo 2 da Stata 1. O conjunto de dados a seguir consiste em peso medido, altura medida, peso relatado e altura reportada de cerca de 200 pessoas. Tentamos construir um modelo para prever o peso medido pelo peso relatado, a altura relatada e a altura medida. Nós fizemos um lvr2plot após a regressão e aqui está o que temos. Explique o que vê no gráfico e tente usar outros comandos STATA para identificar as observações problemáticas. O que você acha que o problema é e qual é a sua solução Resposta: lvr2plot é a alavanca contra a parcela quadrada residual. O canto superior esquerdo do gráfico será um ponto alto e o canto inferior direito será um ponto alto no absoluto dos resíduos. A parte superior direita será os pontos que são altos em alavancagem e no absoluto dos resíduos. Há um ponto nesta trama que se destaca de forma diferente de qualquer outro ponto. Há muitas maneiras de descobrir o que é esse ponto. Em primeiro lugar, graficamente, podemos adicionar uma opção em nosso comando lvr2plot para ver qual observação está associada ao ponto extremo do enredo. Existem também medidas numéricas que podemos implantar. Uma vez que é obviamente muito elevado em alavancagem, primeiro podemos gerar alavancagem e listar os extremos. O outro caminho é usar Cooks D, pois Cooks D é a combinação de alavancagem e residual. Também podemos olhar para os resíduos estudados. Em todos os itens acima, vemos que o assunto 12 é um ponto problemático. É um erro de entrada Sim. Aparentemente para o assunto 12, o peso medido foi trocado com a altura medida. Podemos ter muita certeza sobre este caso. Portanto, podemos alterá-los de volta. Em seguida, realizamos a mesma análise novamente. Agora vemos que tanto a altura medida como a altura relatada não são mais preditores significativos. Isso ocorre porque os preditores são colineais uns dos outros, já que corrigimos o erro de entrada. Vamos fazer outra regressão com apenas o peso relatado como um único preditor. Observe que o R-quadrado ajustado é realmente o mais alto entre todas as análises de regressão que fizemos até agora. Isso mostra que o erro de entrada de dados pode realmente distorcer a análise de regressão às vezes. 2. Continue com o primeiro modelo que executamos no nosso último exercício. Qual medida e seu comando STATA correspondente você usaria se você quiser saber quanto mudança uma observação faria em um preditor. Por exemplo, quanto seria a mudança para o coeficiente de predictor reptht se omitimos a observação 12 da nossa análise de regressão O que? São as outras medidas que você usaria para avaliar a força de uma observação sobre regressão. Quais são os valores de corte comummente sugeridos para eles? Resposta: A medida que mede o impacto que cada observação tem em um preditor particular é o DFBETAs. O DFBETA para um preditor e para uma observação particular é a diferença entre o coeficiente de regressão calculado para todos os dados e o coeficiente de regressão calculado com a observação apagada, escalado pelo erro padrão calculado com a observação apagada. O valor de corte para DFBETAs é 2sqrt (n), onde n é o número de observações. No nosso caso, será o valor absoluto de DFBETAs superior a 2sqrt (181) .14866. Na nossa lista abaixo, podemos ver que temos vários pontos problemáticos com a observação 12, o mais problemático. Para a observação 12, o DFreptht é 24.25463. Isso significa que, incluindo a observação 12 na regressão, o coeficiente de regressão para reptht aumentará cerca de 24 vezes o erro padrão do que o caso com a observação excluída. DFBETAs são intensivos em cálculos, pois é calculado cada preditor e cada observação. DFITS e Cooks D, por outro lado, são informações resumidas sobre a influência (alavancagem e residual) e são muito menos intensivos em computação. Por exemplo, podemos observar DFITS após a regressão, semelhante ao que fizemos no Exercício 1. Os valores de corte de DFITS e Cooks D são 2sqrt (kn) e 4n, respectivamente. As observações com DFITS ou Cooks D valor maior do que esses valores de corte merecem mais investigação. 3. O seguinte arquivo de dados é chamado bbwt. dta e é da Weisbergs Applied Regression Analysis. Consiste em pesos corporais e peso cerebral de cerca de 60 animais. Queremos prever o peso do cérebro pelo peso corporal, ou seja, uma simples regressão linear do peso do cérebro contra o peso corporal. Mostre o que você precisa fazer para verificar a hipótese de linearidade. Se você acha que isso viola a suposição de linearidade, mostre alguns remédios possíveis que você consideraria. Resposta: Em geral, podemos usar acprplot para verificar a suposição de linearidade contra um preditor. Por exemplo, podemos fazer após a regressão acima do acprplot contra o nosso único preditor bodywt. O gráfico não parece muito linear. Em nosso capítulo, fizemos algumas transformações de logaritmo. Bem tente aqui e os resultados são mostrados abaixo. Observe que o enredo é muito melhor desta vez. O R-square ajustado também é aumentado em 0,05. 4. Nós fizemos uma análise de regressão usando o arquivo de dados elemapi no capítulo 2. Continuando com a análise que fizemos, fizemos um avplot aqui. Explique o que é um avplot e como você interpreta o avplot abaixo. Se estiverem cheios no modelo, seria um preditor significativo. Resposta: Um grupo de pontos pode ser influente em conjunto. Um avplot é um método gráfico atraente para apresentar múltiplos pontos influentes em um preditor. O que procuramos em um avplot são os pontos que podem exercer mudanças substanciais na linha de regressão. Por exemplo, na trama acima, a observação com o número da escola 211 é muito baixa no canto esquerdo da trama. A eliminação seria aplanar muito a linha de regressão, ou seja, diminuiria significativamente o coeficiente de regressão para variável total. Você pode comparar a regressão que inclui a variável cheia e todo o conjunto de dados e o modelo sem a observação com snum 211. Claro, existem outros pontos que são de natureza similar à observação com o snum 211 mostrado no avplot que valem a pena Prestando mais atenção a. Por outro lado, se olharmos o valor t em cima do avplot, é apenas 68. O valor p correspondente a ele será a probabilidade de a distribuição t com grau de liberdade ser o grau total de liberdade. O que não é significativo. A equação em cima do avplot é realmente o coeficiente de regressão e seu erro padrão se a variável fosse um preditor. Na nossa regressão que inclui dados completos e todos, verificamos que o coeficiente para total é .3157712 e o erro padrão para isso é .4625914. Eles são exatamente os mesmos que os mostrados em cima do avplot. 5. O conjunto de dados de salário. dta é de uma amostra nacional de 6000 famílias com uma cabeça masculina que gera menos de 15,000 por ano em 1966. Os dados foram classificados em 39 grupos demográficos para análise. Tentamos prever a média de horas trabalhadas pela idade média do entrevistado e a renda média não lucrativa anual. Ambos os preditores são significativos. Agora, se adicionarmos o ASSET à nossa lista de preditores, nem NEIN nem ASSET são significativos. Você pode explicar o porquê? Resposta: Se olharmos o nosso conjunto de dados com mais cuidado, por exemplo, podemos fazer uma descrição no início da análise de regressão, notaríamos que a variável NEIN e ASSET estão muito fechadas. Portanto, esperamos que essas duas variáveis ​​estejam fortemente correlacionadas. Também podemos fazer um gráfico de dispersão para verificar isso. Aqui está o que fizemos: Outro comando útil introduzido neste capítulo é vif. Então, vemos que na primeira regressão, não há evidências de colinearidade, uma vez que os fatores de inflação variância são bastante pequenos. Mas na segunda análise de regressão, o vif para NEIN e ASSET saltou para cerca de 60, o que indica fortemente a aparência de colinearidade entre os preditores. A colinearidade também pode ser detectada usando o comando collin. 6. Continue a usar o conjunto de dados anterior. Desta vez, queremos prever o salário horário médio pela porcentagem média de respondentes brancos. Execute a análise de regressão e liste os comandos STATA que você pode usar para verificar a heterocedasticidade. Explique os resultados do (s) teste (s). O hettest e o whitetst baseiam-se na hipótese nula de que a variância é constante. Portanto, quando a probabilidade for grande, aceitaremos a hipótese nula de variância constante. O rvfplot também mostra que a variância em valores ajustados não muda muito, pois, em geral, vemos uma faixa de largura igual. Por outro lado, a regressão abaixo é diferente. Tanto o hettest quanto o whitetst são significativos, indicando heterocedasticidade. Isso também pode ser visto a partir do rvfplot abaixo, vemos que a banda está ficando mais à direita. 7. Temos um conjunto de dados que consiste em volume, diâmetro e altura de alguns objetos. Alguém fez uma regressão de volume em diâmetro e altura. Explique quais testes você pode usar para detectar erros de especificação do modelo e, se houver algum, sua solução para corrigi-lo. Resposta: podemos usar linktest e ovtest para detectar erros de especificação do modelo. Para o linktest, procuramos o valor p para o termo quadrado e tanto o linktest como o ovtest são significativos, indicando que nosso modelo não está especificado corretamente. Na verdade, é fácil entender neste caso, pois buscamos a relação entre o volume, que é tridimensional e de diâmetro e altura, que são 1-dimensional. Portanto, é razoável colocar em termos de grau superior. Uma solução é colocar o termo de diâmetro quadrado em nossa regressão como mostrado abaixo. Tanto o linktest quanto o ovtest não são mais significativos. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment