Nas últimas semanas, estamos analisando a análise feita para o Kickstarter para “Dados honestos | Dados de metal usinado por precisão em que você pode confiar“Como um estudo de caso. Passamos a idéia geral de como alguém teria testando dados e apresentando resultados. Também analisamos a análise que foi feita e o que havia de errado com isso. Nesta semana, estamos analisando como isso poderia ter sido feito e que conclusões podemos realmente tirar dos testes que foram feitos e os dados que foram coletados.
- A intenção de nossos testes é mostrar que os dados honestos são mais justos, mais próximos da distribuição ideal do que várias outras opções de matriz.
- Como estamos testando dados um contra o outro, o teste apropriado é o teste quadrado de homogeneidade do Chi. Este teste foi projetado especificamente para testar se os conjuntos de dados ou outros fenômenos tiverem a mesma distribuição ou não. Especificamente, este teste verifica a hipótese H0: Todos os dados têm a mesma distribuição. A significância estatística neste teste nos dirá que pelo menos um dos dados tem uma distribuição diferente.
- Como o teste base determina apenas se pelo menos um dado é diferente, se uma diferença for detectada nos D20s ou nos D4s, os testes de homogeneidade de acompanhamento precisarão ser realizados para determinar onde estão as diferenças. Embora existam 6 pares possíveis de dados que possam ser diferentes para os D20s e 3 pares possíveis para os D4s, cada teste adicional aumenta nossa potencial taxa de erro em família e estamos realmente interessados apenas em diferenças entre os dados honestos e os outros dados que estão sendo testados se uma diferença for detectada no D20s, faremos três testes de acompanhamento: o Dice Dice D20 VS VS VS os três. Para os D4s, se uma diferença for detectada, faremos dois acompanhamentos: o D4 honesto vs cada uma das outras opções D4. Finalmente, com esses testes de acompanhamento, o significado ainda está apenas mostrando uma diferença nos dois dados, não o que é melhor. Nesses casos, finalmente chegou a hora de fazer testes de ajuste para testar os dois dados contra outro. Neste conjunto final de testes, não precisamos nos preocupar com limites ou taxas de erro da família, porque estamos (finalmente! Apenas procurando comparar os dois valores de p. Essa comparação de valores de p é válida apenas se os testes anteriores mostraram significado.)
- Para esses testes, usaremos um limite de 0,05 para significado. Este é um meio comum do limiar da estrada. Dadas as probabilidades envolvidas nos D20s (0,05 chance de rolar qualquer lado, um limiar de 0,1 parece irracional.
- Para os testes de acompanhamento, como temos preocupações com a taxa de erro em família, precisamos escolher um ajuste ao nosso limite de significância para explicar isso. Como todos os nossos testes de acompanhamento serão a opção Honest Die versus outro dado, é razoável supor que, se o dado honesto é aquele com a distribuição diferente, os testes de acompanhamento não são independentes um do outro. Assim, para um número de limite bruto, usaremos o ajuste de Bonferroni, que deve apenas dividir o limite pretendido pelo número de testes. Assim, para os acompanhamentos D20 com três testes, nosso limite será 0,05/3 = 0,017 e, para os acompanhamentos D4 com dois testes, nosso limite será 0,025. Também usaremos o procedimento de desativação do Holm, que é semelhante ao ajuste de Bonferroni e que faz menos suposições sobre a distribuição do que os testes de etapas alternativas. Não precisamos usar duas opções e, de fato, duas opções podem nos dar resultados conflitantes, mas estou interessado em usar essas duas técnicas, pois não tenho experiência com elas, e não quero usar as duas opções e relatar apenas uma.
- Para nossos testes D20, nosso tamanho de amostra será de 2000, para nossos testes D6, usaremos um tamanho de amostra de 1000 e para nossos testes D4 usaremos um tamanho de amostra de 500. Estamos usando esses tamanhos de amostra porque esse é o tamanho do conjunto de dados que temos disponível, não porque esses são tamanhos mínimos ideais de amostra. Para determinar o tamanho ideal da amostra mínima, precisamos conhecer o tamanho do efeito (.1), limiar de significância (0,05, 0,017 ou .025 conforme apropriado), poder desejado (0,05) e graus de liberdade (FACES-1*DICE-1) para cada teste para alimentá-los em energia G*. Assim, para cada teste, os tamanhos de amostra ideais que eu gostaria de ter para o limite base 0,05 e 0,01 são:
Teste Limite Graus de liberdade Tamanho da amostra .05 Tamanho da amostra .01 Teste D20 .05 (20-1)*(4-1) = 57 4533 5647 Acompanhamento D20 .017 (20-1)*(2-1) = 19 3571 4354 Teste d6 .05 (6-1)*(2-1) = 5 1979 2577 Teste D4 .05 (4-1)*(3-1) = 6 2086 2705 D4 acompanhamento .025 (4-1)*(2-1) = 3 1962 2491
- A execução de todos esses testes requer um conjunto de dados. Outros que fazem análises de acompanhamento como essa é precisamente por que fornecer seu conjunto de dados é uma prática recomendada. No entanto, apesar do fato de que um conjunto de dados não foi compartilhado, pode -se ser projetado reverso a partir dos gráficos fornecidos usando o seguinte método:
- Pegue a imagem do gráfico fornecido e encontre a coordenada y do pixel que forma a linha 0 no gráfico.
- Para cada barra, encontre a coordenada Y do pixel que forma o topo da barra.
- Para cada barra, subtraia a parte superior da coordenada da barra da coordenada de linha 0. Isso fornece a altura de cada barra em pixels.
- Soma o total de pixels para todas as barras.
- Para cada barra, divida a altura da barra pelo total de pixels para todas as barras. Isso fornece a proporção de todos os pixels contidos nessa barra.
- Para cada barra, multiplique a proporção de pixels na barra pelo número total de rolos e redondo para um número inteiro. Isso fornece um número aproximado de rolos para esse resultado do dado.
- Encontre a rolagem média ponderada em todas as barras, compare com o rolo médio relatado do dado para verificar se o seu conjunto estimado se aproxima de perto os dados originais.
Com tudo planejado, aqui estão os resultados dos nossos testes:
Para os D20snosso primeiro teste é um teste de homogeneidade do qui-quadrado com 57 graus de liberdade. Este teste resulta em uma estatística de teste quadrado de Chi de 83,41, que equivale a um valor p de 0,013. Isso é menor que o limiar de 0,05, portanto, esse resultado é estatisticamente significativo e podemos dizer que existe evidências para rejeitar a hipótese de que todos os D20s testados compartilham a mesma distribuição.
Nosso próximo passo é fazer nossos três testes de acompanhamento. Cada um deles é um teste de homogeneidade do qui-quadrado com 19 graus de liberdade. Para controlar a taxa de erro da família, estamos usando um limite de 0,017 para cada um desses testes. Nossas estatísticas de teste para os dados honestos D20 vs cada um dos outros dados são 22,78 para o CNC #1, o que equivale a um valor p de 0,247, 20.15 para o CNC #2, que é um valor p de .386 e 31,85 para o plástico D20, que é um valor P de .02. Nada disso é menor que o nosso limiar, então nenhum deles é significativo e não podemos dizer que há evidências de que os dados honestos D20 são diferentes de qualquer um dos outros D20s.
Teste | df | Chi-sq | P-val | Limite | Conclusão |
Todos os D20s | 57 | 83.41 | .013 | .05 | Existem evidências para sugerir pelo menos uma diferença |
vs cnc1 | 19 | 22.78 | .247 | .017 | Nenhuma evidência de diferença |
vs cnc2 | 19 | 20.15 | .386 | .017 | Nenhuma evidência de diferença |
vs plástico | 19 | 31.85 | .032 | .017 | Nenhuma evidência de diferença |
Chegamos à mesma conclusão com o procedimento de afiação do Holms. Com este procedimento, ordenamos nossos valores de P mais baixos a mais altos, comparamos-os a um conjunto de limiares crescentes e rejeitam os valores P mais baixos até encontrarmos um onde o valor de P é maior que o limite.
Índice | Teste | p-val | Limiar = .05/(3+1-Index)) |
Conclusão – não rejeite onde: 1º onde P-Val> limiar e aqueles que depois |
1 | vs plástico | .032 | .017 | P-Val> Limite: Falha ao rejeitar |
2 | vs cnc1 | .247 | .025 | falhou em rejeitar acima: Falha ao rejeitar |
3 | vs cnc2 | .386 | .05 | falhou em rejeitar acima: Falha ao rejeitar |
Como isso acontece? Como rejeitamos que todos os dados são iguais, mas não encontramos diferenças entre dados individuais? Existem duas explicações possíveis aqui. Primeiro, é possível que, devido às deficiências do tamanho da amostra, simplesmente haja energia insuficiente para detectar diferenças que estão lá. Outra possibilidade é que, uma vez que existem quatro dados incluídos no teste inicial de “pelo menos uma diferença”, mas estamos apenas fazendo os três testes de acompanhamento que são interessantes para minimizar a taxa de erro da família, que a diferença é encontrada em uma das três outras combinações de dados que não testamos (CNC1 vs CNC2, CNC1 VS Plastic, ou CNC2 VS Plastick). Dados os valores de p calculados nos testes de acompanhamento, parece altamente provável que isso seja um problema de energia de tamanho de amostra causado pelo nível mais alto de precisão necessário para evitar a taxa de erro em termos familiares. De qualquer forma, mais testes são recomendados para esses D20s.
Para os D6snosso primeiro teste é um teste de homogeneidade do qui-quadrado com 5 graus de liberdade. Este teste resulta em uma estatística de teste quadrado de Chi de 1,10, que equivale a um valor p de 0,954. Isso é maior que o nosso limiar de 0,05; portanto, esse resultado não é estatisticamente significativo e não encontramos nenhuma evidência para sugerir nenhuma diferença entre os dois D6s testados.
Teste | df | Chi-sq | P-val | Limite | Conclusão |
Todos os d6s | 5 | 1.10 | .954 | .05 | Nenhuma evidência de diferença |
Para os D4snosso primeiro teste é um teste de homogeneidade do qui-quadrado com 6 graus de liberdade. Este teste resulta em uma estatística de teste quadrado de Chi de 17,18, que equivale a um valor p de 0,009. Isso é menor que o nosso limiar de 0,05, portanto, esse resultado é estatisticamente significativo e podemos dizer que existe evidências para rejeitar a hipótese de que todos os D4s testados compartilham a mesma distribuição.
Nosso próximo passo é fazer nossos dois testes de acompanhamento. Cada um deles é um teste do qui-quadrado de homogeneidade com 3 graus de liberdade. Para controlar a taxa de erro da família, estamos usando um limite de 0,025 para cada um desses testes. Nossas estatísticas de teste para os dados honestos D4 vs cada um dos outros dados são 1,98 para a matriz CNC, o que equivale a um valor p de 0,576 e 9,25 para a matriz plástica, que é um valor p de 0,026. Nenhum deles é menor que o nosso limiar, de modo que nenhum deles é significativo e não podemos dizer que há evidências de que os dados honestos D4 são diferentes de qualquer um dos outros D4s.
Teste | df | Chi-sq | P-val | Limite | Conclusão |
Todos os D4s | 6 | 17.18 | .008 | .05 | Existem evidências para sugerir pelo menos uma diferença |
vs cnc | 3 | 1.98 | .576 | .025 | Nenhuma evidência de diferença |
vs plástico | 3 | 9.25 | .026 | .025 | Nenhuma evidência de diferença |
Chegamos à mesma conclusão com o procedimento de afiação do Holms. Com este procedimento, ordenamos nossos valores de P mais baixos a mais altos, comparamos-os a um conjunto de limiares crescentes e rejeitam os valores P mais baixos até encontrarmos um onde o valor de P é maior que o limite.
Índice | Teste | p-val | Limiar = .05/(3+1-Index)) |
Conclusão – não rejeite onde: 1º onde P-Val> limiar e aqueles que depois |
1 | vs plástico | .026 | .025 | P-Val> Limite: Falha ao rejeitar |
2 | vs cnc | .576 | .05 | falhou em rejeitar acima: Falha ao rejeitar |
Esta é uma situação muito semelhante aos D20s. Existem evidências que sugerem alguma diferença entre os dados testados, mas não quando os testes de acompanhamento para determinar onde essa diferença é realizada. Novamente, parece altamente provável que esse seja um problema de energia de tamanho de amostra causado pelo nível mais alto de precisão necessário para evitar a taxa de erro em família. Mais testes são recomendados para esses D4s.
Nossa conclusão final é bastante direta: existe evidências para sugerir algumas diferenças entre os dados, mas em geral os tamanhos de amostras foram insuficientes devido às demandas do teste do qui-quadrado de homogeneidade e taxa de erro da família. Recomenda -se testes adicionais com tamanhos de amostra maiores.
Esperamos que isso mergulhe profundamente nas melhores práticas de análise de dados seja útil para quem procura um recurso sobre como fazer sua própria análise no futuro, bem como para aqueles que a análise de leitura divulgou por outras pessoas.
A primeira semana foi Parte 1: Abordagem Geral.
A segunda semana foi Parte 2: Revisão da análise honesta dos dados.
Este post é trazido a você pelo nosso maravilhoso patrono Jim Andersonnos apoiando desde outubro de 2019! Obrigado por nos ajudar a manter o ensopado!