About: Data dredging

An Entity of Type: Abstraction100002137, from Named Graph: http://dbpedia.org, within Data Space: dbpedia.org

Data dredging (also known as data snooping or p-hacking) is the misuse of data analysis to find patterns in data that can be presented as statistically significant, thus dramatically increasing and understating the risk of false positives. This is done by performing many statistical tests on the data and only reporting those that come back with significant results. Data dredging is an example of disregarding the multiple comparisons problem. One form is when subgroups are compared without alerting the reader to the total number of subgroup comparisons examined.

Property Value
dbo:abstract
  • p-hacking, jinak známý jako data dredging, data fishing, data snooping, data butchery, significance chasing, significance questing nebo selective inference, je užívání analýzy dat za účelem cíleného hledání výsledků či korelací, které potvrdí nějakou hypotézu. Tím se rapidně zvyšuje možnost tzv. falešně pozitivního výsledku zkoumání. Získávání těchto výsledků se dosahuje například zahrnováním pouze těch dat z celého experimentu, která se hodí pro potvrzení hypotézy. Vypouští se tedy podstatná část všech získaných dat a tím je ovlivňován zkoumaný vzorek. Další situace, kdy k p-hackingu dochází, nastává v případě, že se vypočtená p-hodnota všech zkoumaných dat výrazně blíží předem stanovené hranici p-hodnoty, ale nedostává se pod ní. Pouhé přidání dalšího množství dat do celkové analýzy často vede k pokoření této hranice, a tedy k zdánlivému zisku statisticky významného výsledku. (cs)
  • Data dredging (also known as data snooping or p-hacking) is the misuse of data analysis to find patterns in data that can be presented as statistically significant, thus dramatically increasing and understating the risk of false positives. This is done by performing many statistical tests on the data and only reporting those that come back with significant results. The process of data dredging involves testing multiple hypotheses using a single data set by exhaustively searching—perhaps for combinations of variables that might show a correlation, and perhaps for groups of cases or observations that show differences in their mean or in their breakdown by some other variable. Conventional tests of statistical significance are based on the probability that a particular result would arise if chance alone were at work, and necessarily accept some risk of mistaken conclusions of a certain type (mistaken rejections of the null hypothesis). This level of risk is called the significance. When large numbers of tests are performed, some produce false results of this type; hence 5% of randomly chosen hypotheses might be (erroneously) reported to be statistically significant at the 5% significance level, 1% might be (erroneously) reported to be statistically significant at the 1% significance level, and so on, by chance alone. When enough hypotheses are tested, it is virtually certain that some will be reported to be statistically significant (even though this is misleading), since almost every data set with any degree of randomness is likely to contain (for example) some spurious correlations. If they are not cautious, researchers using data mining techniques can be easily misled by these results. Data dredging is an example of disregarding the multiple comparisons problem. One form is when subgroups are compared without alerting the reader to the total number of subgroup comparisons examined. (en)
  • p-Hacking, auch als specification searching bekannt, bezeichnet die Verzerrung und Manipulation von Forschungsresultaten, dessen Ziel ist es, den p-Wert (d. h. die Signifikanz) unter eine bestimmte Grenze zu reduzieren durch nachträgliche Anpassung der Testparameter. Der -Wert wird „gehackt“, also künstlich unter die 5-%-Grenze gedrückt. Auf diese Weise wird eine vermeintliche statistische Signifikanz der Ergebnisse erzeugt. Die häufige Fehlinterpretation von -Werten und die Anwendung von -Hacking hat zu unzähligen falschen Forschungsresultaten geführt, die der Wissenschaft geschadet haben. -Hacking kann als Reaktion wissenschaftlicher Autoren auf die Tatsache angesehen werden, dass Studien mit signifikanten Ergebnissen für die Publikation präferiert werden und Analysen, die nicht signifikante Resultate aufweisen, unveröffentlicht bleiben (File-Drawer-Problem). Mithilfe von Metaanalysen ist es möglich, -Hacking aufzudecken. (de)
  • Le data dredging (littéralement le dragage de données mais mieux traduit comme étant du triturage de données) est une technique statistique qui « consiste à ne publier que les compositions d’échantillon et les périodes d’observation favorables à l’hypothèse testée ». Une des formes du data dredging est de partir de données ayant un grand nombre de variables et un grand nombre de résultats, et de choisir les associations qui sont « statistiquement significatives », au sens de la valeur p (on parle aussi de p-hacking). Ce phénomène apparaît par exemple en médecine, plus précisément en épidémiologie, où, à partir d'un grand nombre de données (poids, âge de l'éventuelle première cigarette, etc.) et d'un grand nombre de résultat possibles (cancer du sein, cancer du poumon, accident de voiture, etc.) des associations hasardeuses sont faites (a posteriori), et « validées » statistiquement. (fr)
  • P-hacking, p-hacking, data dredging (z ang., nadużywanie danych), QRP (ang. questionable research practices – wątpliwe praktyki badawcze) – błędy metodologiczne, jakich dopuszczają się badacze łamiący założenia przyjętego podejścia wnioskowania statystycznego, szczególnie w obszarze weryfikacji hipotez statystycznych, kierując się nadmierną motywacją uzyskania wyniku istotnego statystycznie, ze szkodą dla faktycznej wartości naukowej badań. P-hacking polega na łamaniu założeń używanych modeli statystycznych, takich jak stosowanie niezależnych prób losowych, oraz na popełnianiu błędów logicznych. Przykłady błędów typu P-hacking to: Metody przeciwdziałania takiemu zjawisku obejmują między innymi prerejestrację planów badawczych, dającą notarialną gwarancję, że zaplanowana struktura analiz była przestrzegana, oraz częstsze wykonywanie replikacji badań. Wicherts i in. zaproponowali listę kontrolną wyliczającą 34 błędy badawcze, których należy unikać. Narzędzia pomagające wykryć P-hacking to takie metody metaanalityczne jak m.in. czy . Wykryto dzięki nim pewną ilość nadużyć w badaniach, np. w obszarze psychologii społecznej. Przeglądy publikacji wskazują że P-hacking jest często spotykany, jednak możliwe że nie ma poważnego wpływu np. na metaanalizy. Przykładowo, w jednym z badań ankietowych do niezaplanowanego podglądania danych i przerywaniu badań przyznało się 55% z ok. 2000 naukowców. Przeglądy zademonstrowały występowanie problemów tego typu między innymi w biznesowych badaniach A/B w informatyce, w ekologii behawioralnej, i w quasi-eksperymentach ekonomii. (pl)
  • P-hacking é um termo amplo usado em pesquisa científica para descrever vários tipos de manipulação comumente empregados na análise de dados que levam a resultados estatisticamente significativos mas equivocados ou enganosos. Os testes convencionais de significância são baseados na probabilidade de que um resultado particular foi obtido puramente por sorte, isso é, não há uma relação real entre os resultados. Dessa forma, eles necessariamente aceitam risco de conclusões equivocadas. Esse nível de risco é chamado de significância (α). Quando vastas quantidades de testes são executados ao mesmo tempo, alguns desses produzem falsos resultados desse tipo, portanto 5% das hipóteses escolhidas ao acaso são estatisticamente significantes a um valor α de 5%. Quando hipóteses suficientes são testadas, é quase certo que algumas delas serão estatísticamente significantes, ainda que ilusórias, visto que praticamente todo conjunto de dados com qualquer grau de aleatoriedade pode conter correlações espúrias. Se não tomarem cuidado, pesquisadores que usam técnicas de mineração de dados podem ser facilmente enganados por esses resultados. (pt)
  • Просіювання даних (також риболовля серед даних, підгонка даних, р-хакінг) є зловживання аналізом даних з метою пошуку закономірностей, які можуть бути представлені як статистично значущі, таким чином, значно збільшуючи ризик помилковопозитивних результатів. Це робиться шляхом проведення багатьох статистичних тестів на даних і звітності із публікацією лише тих результатів, що мають статистичну значущість. Процес просіювання даних включає перевірку кількох гіпотез з використанням одного набору даних шляхом вичерпного пошуку - або у комбінаціях змінних, які можуть показати кореляцію, або у групах спостережень, які показують різницю середніх значеннь, або в їх розбитті на підгрупи за якимись іншими змінними. Звичайні тести статистичної значущості базуються на ймовірності виникнення певного результату при однократному експерименті, і обов'язково враховують певний ризик помилок певного типу (помилкові відхилення нульової гіпотези). Цей рівень ризику називається значущістю. Коли проводиться велика кількість тестів, деякі дають хибні результати цього типу. Отже, 5 % випадково обраних гіпотез можуть бути (помилково) статистично значущими на рівні 5 % значущості, 1% можуть (помилково) стати статистично значущими на рівні значущості 1% тощо, і т.д.. Коли перевіряється достатня кількість гіпотез, можна бути впевненим, що деякі з них будуть статистично значущими (навіть якщо це вводить в оману), оскільки майже кожен набір даних із будь-яким ступенем випадковості може містити деякі помилкові кореляції. Якщо це не враховується, результати множинних порівнянь можуть легко ввести в оману дослідників, які використовують методи аналізу даних. Просіювання даних є прикладом ігнорування проблеми множинного порівняння. Одна з форм - це відсутність у статтях інформації про кількість проведених порівнянь підгруп. (uk)
dbo:thumbnail
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 1311951 (xsd:integer)
dbo:wikiPageLength
  • 18669 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 1124175443 (xsd:integer)
dbo:wikiPageWikiLink
dbp:wikiPageUsesTemplate
dcterms:subject
gold:hypernym
rdf:type
rdfs:comment
  • p-hacking, jinak známý jako data dredging, data fishing, data snooping, data butchery, significance chasing, significance questing nebo selective inference, je užívání analýzy dat za účelem cíleného hledání výsledků či korelací, které potvrdí nějakou hypotézu. Tím se rapidně zvyšuje možnost tzv. falešně pozitivního výsledku zkoumání. (cs)
  • p-Hacking, auch als specification searching bekannt, bezeichnet die Verzerrung und Manipulation von Forschungsresultaten, dessen Ziel ist es, den p-Wert (d. h. die Signifikanz) unter eine bestimmte Grenze zu reduzieren durch nachträgliche Anpassung der Testparameter. (de)
  • Data dredging (also known as data snooping or p-hacking) is the misuse of data analysis to find patterns in data that can be presented as statistically significant, thus dramatically increasing and understating the risk of false positives. This is done by performing many statistical tests on the data and only reporting those that come back with significant results. Data dredging is an example of disregarding the multiple comparisons problem. One form is when subgroups are compared without alerting the reader to the total number of subgroup comparisons examined. (en)
  • Le data dredging (littéralement le dragage de données mais mieux traduit comme étant du triturage de données) est une technique statistique qui « consiste à ne publier que les compositions d’échantillon et les périodes d’observation favorables à l’hypothèse testée ». Une des formes du data dredging est de partir de données ayant un grand nombre de variables et un grand nombre de résultats, et de choisir les associations qui sont « statistiquement significatives », au sens de la valeur p (on parle aussi de p-hacking). (fr)
  • P-hacking é um termo amplo usado em pesquisa científica para descrever vários tipos de manipulação comumente empregados na análise de dados que levam a resultados estatisticamente significativos mas equivocados ou enganosos. (pt)
  • P-hacking, p-hacking, data dredging (z ang., nadużywanie danych), QRP (ang. questionable research practices – wątpliwe praktyki badawcze) – błędy metodologiczne, jakich dopuszczają się badacze łamiący założenia przyjętego podejścia wnioskowania statystycznego, szczególnie w obszarze weryfikacji hipotez statystycznych, kierując się nadmierną motywacją uzyskania wyniku istotnego statystycznie, ze szkodą dla faktycznej wartości naukowej badań. Przykłady błędów typu P-hacking to: (pl)
  • Просіювання даних (також риболовля серед даних, підгонка даних, р-хакінг) є зловживання аналізом даних з метою пошуку закономірностей, які можуть бути представлені як статистично значущі, таким чином, значно збільшуючи ризик помилковопозитивних результатів. Це робиться шляхом проведення багатьох статистичних тестів на даних і звітності із публікацією лише тих результатів, що мають статистичну значущість. Просіювання даних є прикладом ігнорування проблеми множинного порівняння. Одна з форм - це відсутність у статтях інформації про кількість проведених порівнянь підгруп. (uk)
rdfs:label
  • P-hacking (cs)
  • P-Hacking (de)
  • Data dredging (en)
  • Data dredging (fr)
  • P-hacking (pl)
  • P-hacking (pt)
  • Просіювання даних (uk)
owl:sameAs
prov:wasDerivedFrom
foaf:depiction
foaf:isPrimaryTopicOf
is dbo:wikiPageRedirects of
is dbo:wikiPageWikiLink of
is foaf:primaryTopic of
Powered by OpenLink Virtuoso    This material is Open Knowledge     W3C Semantic Web Technology     This material is Open Knowledge    Valid XHTML + RDFa
This content was extracted from Wikipedia and is licensed under the Creative Commons Attribution-ShareAlike 3.0 Unported License