Vorschlag eines morphologischen Kastens zur Charakterisierung von Data-Science-Projekten

Theuerkauf, René; Daurer, Stephan; Hoseini, Sayed; Kaufmann, Jens; Kühnel, Stephan; Schwade, Florian; Alekozai, Emal M.; Neuhaus, Uwe; Rohde, Heiko; Schulz, Michael

doi:10.1007/s00287-022-01508-6

Vorschlag eines morphologischen Kastens zur Charakterisierung von Data-Science-Projekten

HAUPTBEITRAG
Open access
Published: 25 November 2022

Volume 45, pages 395–401, (2022)
Cite this article

Download PDF

You have full access to this open access article

Informatik Spektrum Aims and scope

Vorschlag eines morphologischen Kastens zur Charakterisierung von Data-Science-Projekten

Download PDF

René Theuerkauf¹,
Stephan Daurer²,
Sayed Hoseini^3,8,
Jens Kaufmann³,
Stephan Kühnel¹,
Florian Schwade⁴,
Emal M. Alekozai⁵,
Uwe Neuhaus⁶,
Heiko Rohde⁷ &
…
Michael Schulz⁶

3222 Accesses
Explore all metrics

Zusammenfassung

Data-Science-Projekte sind typischerweise interdisziplinär, adressieren vielfältige Problemstellungen aus unterschiedlichen Domänen und sind häufig durch heterogene Projektmerkmale geprägt. Bestrebungen in Richtung einer einheitlichen Charakterisierung von Data-Science-Projekten sind insbesondere dann relevant, wenn über deren Durchführung entschieden werden soll – beispielsweise anhand von Kriterien wie Ressourcenbedarf, Datenverfügbarkeit oder potenziellen Risiken. Nach bestem Wissen der Autoren fehlt es jedoch in Wissenschaft und Praxis bisher an einschlägigen Ansätzen.

Mit diesem Artikel wird ein erster Schritt auf dem Weg hin zu einem Ansatz für eine einheitliche Charakterisierung von Data-Science-Projekten gegangen, indem ein morphologischer Kasten vorgeschlagen wird, der im Rahmen einer dreischrittigen Analyse auf Basis eines Fragenkataloges abgeleitet wurde. Er umfasst sieben Dimensionen mit 32 Dimensionsausprägungen und wird anhand einer Fallstudie aus dem Gebiet der Predictive Maintenance illustriert. Der morphologische Kasten bietet theoretische und praktische Anwendungspotenziale für den strukturierten Vergleich von Data-Science-Projekten und die Definition von Projektportfolios, erhebt jedoch keinen Anspruch auf Vollständigkeit. Er ist somit als Vorschlag und Anstoß zum Einstieg in einen weiterführenden Diskurs anzusehen.

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

Einleitung

Für Data-Science-Projekte lassen sich diverse Vorgehensmodelle finden [10]. Dass diese so zahlreich sind, lässt sich dadurch begründen, dass Data Science ein modernes und aktiv beforschtes Themengebiet ist, in dem die praktische Anwendung im Vordergrund steht. Data-Science-Projekte weisen dabei einige Besonderheiten auf [16], sodass nicht einfach beliebige Projekt-Vorgehensmodelle angewendet, übertragen oder adaptiert werden können. Eine dieser Besonderheiten ist der gezielte Blick auf den Aspekt der Wissenschaftlichkeit. Unter dem Titel „Where is the Science in Data Science Projects?“ zielte ein Workshop auf der INFORMATIK 2021 darauf ab, die Frage nach der Wissenschaftlichkeit in Data-Science-Projekten aus Sicht von Theorie und Praxis stärker zu beleuchten [7].

Im Rahmen dieses Workshops entwickelten die Teilnehmer:innen zunächst prototypische Data-Science-Projekte, die nachfolgend hinsichtlich unterschiedlicher Aspekte der in die Projektarbeit einfließenden Wissenschaftlichkeit bewertet wurden. Grundlage der Bewertung waren Elemente aus dem Data Science Process Model (DASC-PM) [17], im Speziellen ein Fragenkatalog für die Beschreibung von Schlüsselbereichen und Phasen von Data-Science-Projekten. Die unmittelbare Erkenntnis im Workshop war, dass sich wissenschaftliche Arbeit in mannigfaltiger Form in Abhängigkeit der jeweiligen Projektcharakteristika manifestiert. Die Festlegung dieser Charakteristika ist dabei weder eindeutig noch einfach. Berücksichtigt werden können im Allgemeinen so verschiedene Aspekte wie Daten, Analysen, Team- oder Organisationsstrukturen [14]. Auch im Workshop wurden im Rahmen der Diskussion über die Ergebnisse von den Teilnehmer:innen unterschiedliche Attribute von Data-Science-Projekten genannt. Eine offensichtliche Erklärung verschiedenartiger Ausprägungen der Wissenschaftlichkeit im Projektkontext ergab sich auf Basis dieser Diskussionen allerdings nicht.

Die Anzahl der verfügbaren Vorgehensmodelle und die unterschiedlichen Aufbereitungen in der Literatur zu Data-Science-Projekten lassen vermuten, dass eine Beschreibung der Projekte anhand bestimmter Attribute nicht zu einer zwingend einheitlichen Darstellung führt. Die Erkenntnisse aus dem Workshop bestätigen dies und zeigen, dass bei den Teilnehmer:innen auch das eigentlich einer Darstellung vorgelagerte einheitliche Verständnis der unterschiedlichen Attribute im Allgemeinen und der Wissenschaftlichkeit im Besonderen fehlt. Es zeigt sich im Anschluss weiterhin, dass die in Wissenschaft und Praxis häufig erfolgreich gewählte Reduktion eines Optionenraums zur Beschreibung von Phänomenen oder Konzepten auf zwei Dimensionen – wie z. B. die Risiko-Matrix (vgl. Brauweiler [4]), der Ordnungsrahmen der Business Intelligence (vgl. Gluchowski [6]) oder die Matrix für „Types of Openness“ bei der Betrachtung von Informationsressourcen (vgl. Schlagwein et al. [15]) – für den vorliegenden Fall nicht plausibel anwendbar scheint, weil sie diesen nicht nur zu stark vereinfacht, sondern dem Aspekt keine Rechnung trägt, dass bestimmte Attribute für einzelne Projekte schlicht nicht charakteristisch, sondern exogen gegebene Einschränkungen sind. Dazu zählen bspw. die Anzahl der Projektmitglieder, die Orientierung an kommerziellen Zwecken, die Wiederverwendbarkeit oder ein Dokumentationszwang.

Der vorliegende Artikel entwickelt daher umfassendere Vorschläge zur geeigneten Charakterisierung von Data-Science-Projekten. Dazu werden in Abschn. 2 zunächst der theoretische Hintergrund zur Data Science und verwandte Arbeiten beleuchtet. Darauf aufbauend adressiert Abschn. 3 den zentralen Beitrag dieses Artikels, d. h. die Sammlung von Dimensionen und Dimensionsausprägungen zur Charakterisierung von Data-Science-Projekten und deren Präsentation in Form eines morphologischen Kastens. Dieser Kasten stellt einen ersten Schritt hin zur Darstellung der Diversität von Data-Science-Projekten dar, ohne dabei Ansprüche auf Vollständigkeit, Prägnanz oder Eindeutigkeit zu erheben. Vielmehr ist er als ein erstes Ergebnis und damit Ausgangsbasis für einen wissenschaftlichen Diskurs anzusehen – mit dem Potenzial, fortlaufend adaptiert und/oder erweitert zu werden. In Abschn. 4 wird dieses Ergebnis exemplarisch auf einen Anwendungsfall angewendet und damit gezeigt, inwieweit sich die Projektcharakteristika mithilfe des morphologischen Kastens abbilden und voneinander abgrenzen lassen. Der Beitrag schließt in Abschn. 5 mit einer Zusammenfassung, der kurzen Diskussion von Limitationen und einer Darstellung von Potenzialen für weitere Forschung aus dem Blickwinkel der (Wirtschafts‑)Informatik.

Der in diesem Beitrag vorgestellte Vorschlag für einen morphologischen Kasten soll allerdings nicht nur als Basis für weitere Forschung dienen. Vielmehr liefert er auch Anwendungspotenziale für die Praxis. Er erlaubt, Projekte im eigenen und fremden Umfeld strukturiert, d. h. im Rahmen von dezidierten Dimensionen und Charakteristika, zu beschreiben und ermöglicht somit die Definition (und unter Umständen auch die Steuerung) von Data-Science-Projektportfolios.

Theoretische Grundlagen und verwandte Arbeiten

Data Science

Die Besonderheiten der Data Science sollen nachfolgend näher beleuchtet werden, gestützt auf die Definition von Schulz et al. [17]:

„Data Science ist ein interdisziplinäres Fachgebiet, in welchem mit Hilfe eines wissenschaftlichen Vorgehens, semiautomatisch und unter Anwendung bestehender oder zu entwickelnder Analyseverfahren Erkenntnisse aus teils komplexen Daten extrahiert und unter Berücksichtigung gesellschaftlicher Auswirkungen nutzbar gemacht werden.“

Der Hauptzweck von Data-Science-Projekten besteht darin, Erkenntnisse über Daten zu gewinnen, die als Grundlage für Analysen dienen. Dabei ist Data Science nicht auf die An- und Verwendung bestimmter Methoden oder Algorithmen beschränkt. Vielmehr kommt es darauf an, dass Ergebnisse systematisch generiert werden. Deshalb wird in der Literatur zunehmend betont, dass Data-Science-Projekte einem wissenschaftlichen Ansatz folgen sollten, der im Bereich der Data Science häufig zwangsläufig interdisziplinär ist [7, 17, 18]. Die Interdisziplinarität spiegelt sich darin wider, dass Data-Science-Projekte ein gründliches Verständnis sowohl einer bestimmten anwendungsspezifischen Domäne als auch mathematische und statistische Kenntnisse voraussetzen. Da der Einsatz von Technologie bei der Verarbeitung komplexer Daten und für die Gewährleistung von Reproduzierbarkeit unerlässlich ist, ist zudem ein solides technologisches (Grund‑)Verständnis erforderlich.

Die potenzielle Nutzung sowie der Missbrauch von Daten haben intensive Auswirkungen auf die Gesellschaft, die im Rahmen der Data Science ebenso ihre Berücksichtigung finden wie die Nutzung von datenbasierten Erkenntnissen in marktorientierter Form. Der Wert eines jeden Data-Science-Projekts wird ergo durch seine ökonomischen und/oder sozialen Ergebnisse, seine Prozesse und die gewonnenen Erkenntnisse bestimmt.

Entwicklung eines morphologischen Kastens zur Charakterisierung von Data-Science-Projekten

In diesem Abschnitt wird die Ableitung eines Kriterienkataloges zur Charakterisierung von Data-Science-Projekten beschrieben. Dieser Katalog wird anschließend in Form eines morphologischen Kastens dargestellt. Bei einem morphologischen Kasten handelt es sich um eine Matrix, aufgespannt aus mehreren voneinander unabhängigen Dimensionen, die eine oder mehrere Ausprägungen haben können [13].

Die Grundlage für die Ableitung von Dimensionen und deren Ausprägungen bildet ein Data-Science-Fragenkatalog, der im Rahmen der (Weiter‑)Entwicklung des DASC-PM erstellt wurde (siehe dazu Schulz et al. [17], Anhang I). Der Fragenkatalog dient dazu, die Identifikation der wesentlichen Merkmale und Ziele eines Data-Science-Projektes zu unterstützen, um so einen Projektauftrag formulieren zu können. Er wurde iterativ in mehreren Runden von einer Expertengruppe bestehend aus über 20 Teilnehmer:innen aus Praxis und Wissenschaft entwickelt. Er besteht aus insgesamt 72 offenen und geschlossenen Fragen, die den sieben Schlüsselbereichen des DASC-PM, d. h. Domäne, Daten, Analyse, Nutzbarmachung, Nutzung, IT-Infrastruktur und Wissenschaftlichkeit zugeordnet sind. Aufgrund der empirischen Grundlage, der Inhalte und der Zielstellung liefert der Fragenkatalog eine geeignete Ausgangsbasis, um eine erste Annäherung an die Charakterisierung von Data-Science-Projekten zu ermöglichen. Zur Ableitung der Dimensionen und Ausprägungen des morphologischen Kastens wurde der Fragebogen in drei Schritten analysiert:

1.
Im ersten Schritt wurden diejenigen Fragen identifiziert, die sich eindeutig auf die Ziele, Konzeptionierung, Ausgestaltung und Durchführung neuer Data-Science-Projekte fokussieren. Fragen, die sich beispielsweise ausschließlich auf die Erhebung eines Ist- oder Soll-Zustandes konzentrieren, wurden hierbei ausgeschlossen, da diese keinen Beitrag zur Charakterisierung von Data-Science-Projekten liefern. Nach diesem Schritt blieben 28 von 72 Fragen übrig.
2.
Im zweiten Schritt wurden die verbliebenen Fragen hinsichtlich der möglichen und zu erwartenden Antworten untersucht. Fragen, die in gleichen oder ähnlichen Antworten bzw. Antwortmöglichkeiten resultierten, wurden in Kategorien zusammengefasst (losgelöst von ihrer Zuordnung zu DASC-PM-Schlüsselbereichen). Dabei entstanden sieben Gruppen von Fragen.
3.
Im dritten Schritt wurden die gruppierten Fragen und deren mögliche Antworten inhaltlich analysiert. Daraus wurde der in Abb. 1 dargestellte morphologische Kasten abgeleitet, welcher sieben Dimensionen umfasst (entsprechend der Fragekategorien).

Nachfolgend werden die Dimensionen und deren Ausprägungen kurz erläutert. Für die Charakterisierung eines Data-Science-Projekts lässt der morphologische Kasten die Auswahl mehrerer Ausprägungen pro Dimension zu.

Die Dimension Ziel/Ergebnis klassifiziert ein Data-Science-Projekt hinsichtlich des Anliegens/Zwecks bzw. der zu erwartenden Resultate. Die möglichen Ausprägungen der Dimension sind das Lösen einer existierenden/konkreten Problemstellung (bspw. Churn-Analyse), das Erzielen eines Erkenntnisgewinns (bspw. Güte eines bestimmten Klassifikationsmodells für ein Problem) und/oder das Erzielen eines Forschungsbeitrages (bspw. Entwickeln einer neuen Methode zur Spracherkennung). Damit trägt der morphologische Kasten der Relevanz von Data Science in Forschung und Praxis Rechnung.

Ein weiterer wesentlicher Aspekt von Data-Science-Projekten und damit die zweite Dimension des morphologischen Kastens ist die Datenbeschaffung. Hinsichtlich der Datenbeschaffung können Data-Science-Projekte klassifiziert werden nach der Verfügbarkeit/Zugänglichkeit von Daten, der Notwendigkeit zur Datenaufbereitung und -zusammenführung oder der Erhebung von neuen Daten.

Mit der Dimension Neuheitsgrad der verwendeten Lösungsverfahren wird ausgedrückt, dass die Methodenauswahl ein wesentlicher Bestandteil von Data-Science-Projekten ist. Zwar können bestehende Verfahren zum Teil unverändert genutzt werden; oftmals ist aber die Anpassung bestehender oder gar die Entwicklung neuer Verfahren als Teil des Projekts notwendig, um die definierten Ziele erreichen zu können. Mögliche Ausprägungen dieser Dimension sind Nutzung von Standardverfahren, Nutzung angepasster Verfahren, Weiterentwicklung bestehender Verfahren und Erfordernis der Neuentwicklung von Verfahren.

Daran schließt sich die Dimension Wiederverwendbarkeit an, welche Data-Science-Projekte hinsichtlich der Übertrag- und Generalisierbarkeit von Methoden und Ergebnissen klassifiziert. Die Ausprägungen der Dimension reichen dabei von ausschließlich projektbezogener Verwendbarkeit über bloße Übertragbarkeit und Anpassung des Analyseverfahrens bis hin zur vollständigen Generalisierbarkeit von Ergebnissen und (neu entwickelten) Verfahren.

Die Dimension Potenzielle Felder von Unklarheiten zielt darauf ab, Projektbereiche zu identifizieren, die besonders häufig mit offenen Fragen und daraus folgenden Unklarheiten einhergehen. Vor dem Hintergrund der engen Verbindung zum DASC-PM ist die Betrachtung dieser Dimension von besonderem Interesse, weil sich in den Ausprägungen sechs der sieben DASC-PM-Schlüsselbereiche wiederfinden. Entsprechend kann für den Umgang mit häufig gestellten Fragen und Unklarheiten bzgl. der Dimensionsausprägungen Domäne, Daten, Analyseverfahren, Nutzbarmachung, Nutzung und IT-Infrastruktur der DASC-PM-Fragenkatalog unterstützend zurate gezogen werden (siehe dazu Schulz et al. [17], Anhang I).

Klassische Fragen hinsichtlich besonderer Ressourcenanforderungen aus dem Projektmanagement treffen auch auf Data-Science-Projekte zu. Dabei kann es sich in den Ausprägungen des Ressourcenbedarfs um bspw. Finanzen (d. h. die finanzielle Ausstattung des Projekts), Sachmittel (d. h. projektspezifische Hilfsmittel und Materialien), Personal (d. h. die Anzahl von Projektmitarbeiter:innen sowie deren Kompetenzen) und verfügbare Zeit handeln.

Schließlich sind Data-Science-Projekte hinsichtlich der Beteiligung wichtiger Rollen außerhalb des Data-Science-Teams zu betrachten. Projektteamexterne können als Auftraggeber, Datenbereitsteller, Umsetzer sowie als Empfänger von Ergebnissen, Daten und neu entwickelten Analyseverfahren fungieren und damit ganz unterschiedliche Rollen verkörpern. Dabei können diese Teamexternen sowohl aus der eigenen Organisation/dem eigenen Unternehmen stammen als auch von außerhalb.

Demonstration der Anwendung des morphologischen Kastens

Im Folgenden wird die Anwendung des morphologischen Kastens anhand der Fallstudie von Bink und Zschech [3] exemplarisch dargestellt. Da nicht bei allen Dimensionen des morphologischen Kastens entsprechende Ausprägungen explizit erkennbar und die Verfasser dieses Beitrags nicht in die Fallstudie involviert waren, wurden teilweise subjektiv naheliegende, aber plausible Annahmen zur Charakterisierung getroffen. Insgesamt wurde der morphologische Kasten von fünf unabhängigen Forschern für die Fallstudie spezifiziert. Über abweichende Einschätzungen wurde debattiert, bis der Konsens erreicht wurde, der in Abb. 2 zu sehen ist.

Die ausgewählte Fallstudie beschreibt ein Projekt zu Predictive Maintenance (dt.: vorausschauende Instandhaltung). Predictive Maintenance ist ein zustandsorientiertes, präventives Wartungsprogramm. Anstatt sich bei der Planung von Wartungsaktivitäten auf durchschnittliche Lebensdauerstatistiken zu verlassen, nutzt Predictive Maintenance die direkte Überwachung des physischen Zustands von Maschinen, der Anlageneffizienz und anderer Indikatoren, um die tatsächliche mittlere Zeit bis zum Ausfall oder den Effizienzverlust zu bestimmen [11]. Im Kontext von Data Science stellt zustandsorientierte bzw. vorausschauende Instandhaltung einen häufig genannten Anwendungsfall dar (z. B. Bichler et al. [2]).

Die Fallstudie beschreibt eine Situation bei einem europäischen Automobilhersteller. Es geht hierbei um die Verbesserung der Wartungsstrategie einer Fräsmaschine. Die Werkzeuge dieser Fräsmaschine unterliegen einem nutzungsabhängigen Verschleiß. Dieser Verschleiß kann durch verschiedene Korrekturen im operativen Betrieb minimiert werden. Früher oder später müssen die Werkzeuge schließlich getauscht werden. Bei der optimalen Wartungsstrategie geht es jedoch neben der möglichst langen Nutzung von Werkzeugen und Maschinen auch um die Vermeidung von Ausschuss, da die Qualität der produzierten Teile gegen Ende der Lebensdauer der Werkzeuge schlechter wird. Ein Grund hierfür ist, dass Toleranzen nicht mehr zuverlässig eingehalten werden können.

Das Ziel/Ergebnis des Projekts kann als Lösung einer existierenden Problemstellung eingeordnet werden. In der Vergangenheit wurden die Werkzeugwechsel nach subjektiver Beurteilung von Fachkräften vorgenommen und sollen nun durch einen datenbasierten Ansatz objektiviert werden. Im Rahmen der Datenbeschaffung kann teilweise auf vorhandene Daten zurückgegriffen werden (Ausbringungsmenge, Korrekturen, Standzeiten). Darüber hinaus konnten nun Sensordaten analysiert werden, die zwar in der Maschine standardmäßig erfasst werden, aber bislang vom Unternehmen nicht ausgewertet wurden (z. B. Durchmesserkorrekturen, Achsauslastung der Frässpindel). Es ist naheliegend, dass dafür unterschiedliche Datenbestände (/-quellen) zusammengeführt werden. Bezüglich des Neuheitsgrads der verwendeten Lösungsverfahren ist in diesem Fall von einer Nutzung angepasster Verfahren auszugehen. In Puncto Wiederverwendbarkeit kann davon ausgegangen werden, dass das Analyseverfahren bei Vorliegen anderer Gegebenheiten eine Anpassung erfordert, z. B. bei Werkzeugmaschinen eines anderen Typs (Dreh- statt Fräsmaschinen) oder eines anderen Herstellers. Die potenziellen Felder von Unklarheiten liegen hier sowohl in den Bereichen Domäne, Daten als auch Analyseverfahren. Mit zunehmender Anzahl an Variablen erhöht sich die Komplexität der Zeitreihenanalysen und bietet somit Herausforderungen hinsichtlich der Analyse und der Erklärbarkeit der Ergebnisse während der operativen Nutzung. Besondere Ressourcenanforderungen sind bei dieser Fallstudie vor allem im Bereich Personalressourcen zu verorten. Data-Science-Kompetenzen sind im typischen Arbeitsumfeld der Fallstudie immer noch eher selten vorhanden. Somit stellt die Zusammenarbeit zwischen (externen) Data Scientists und (internen) Domänenexperten einen wesentlichen Erfolgsfaktor dar. Externe Rollen im Projekt sind in der Fallstudie nicht explizit genannt; sie sind aber im Bereich des Auftraggebers, der Domänenexpertise oder aufseiten des Werkzeugmaschinenherstellers (Ausstattung mit Sensoren, Interpretation der Messwerte etc.) denkbar.

Schlussbetrachtung

Data Science ist ein Themengebiet, das zu verwandten Disziplinen wie Data Mining, Knowledge Discovery oder Big Data Schnittmengen aufweist, sich jedoch durch einige Besonderheiten abgrenzt. Aus einer projektorientierten Sichtweise wurden im vorliegenden Beitrag Eigenschaften identifiziert und dafür Dimensionen und Dimensionsausprägungen zur Charakterisierung von Data-Science-Projekten gesammelt. Diese wurden in Form eines morphologischen Kastens strukturiert, dessen praktische Anwendbarkeit anschließend anhand einer Fallstudie zur Charakterisierung eines Data-Science-Projekts verdeutlicht wurde.

Das Ergebnis ist ein morphologischer Kasten zur Charakterisierung von Data-Science-Projekten, der als Vorschlag präsentiert wird. Dieser entstammt keiner systematischen Erhebung, sondern ist das Resultat von Befragungen und Diskussionen einer geschlossenen Expertengruppe. Das Ergebnis ist daher durch subjektive Entscheidungen geprägt, bspw. über die Berücksichtigung und Benennung von Dimensionen und Dimensionsausprägungen oder das Abstraktionslevel. Eine andere Expertengruppe könnte andere Entscheidungen treffen und so zu einer anderen Aufstellung gelangen. Der morphologische Kasten wurde jedoch auf Basis einer dreistufigen Analyse des DASC-PM-Fragenkatalogs und damit verbundener Erfahrungen von über 20 Expert:innen abgeleitet und ist fachlich fundiert. Nach bestem Wissen und Gewissen der Autoren kann das Ergebnis dieses Beitrags somit als ein Fundament für die Darstellung der Heterogenität von Data-Science-Projekten interpretiert werden. Aufgrund des explorativen Charakters des Beitrags bestehen Limitationen hinsichtlich der Aspekte Vollständigkeit, Prägnanz, Eindeutigkeit und Generalisierbarkeit. Die Ergebnisse sind im Rahmen zukünftiger Forschung zu verifizieren.

Für Wissenschaft und Praxis wird mit dem morphologischen Kasten ein erster Schritt hin zu einer deutlicheren Abgrenzung verschiedenartiger Data-Science-Projekte geleistet, die bspw. in Abhängigkeit der präsentierten Dimensionen und Dimensionsausprägungen unter Umständen auch unterschiedlicher Steuerung bedürfen. Dies ist insbesondere für den Aufbau von Data-Science-Projektportfolios zur Risikodiversifikation auch praktisch von hoher Relevanz, da verschiedenartige Projekte mit unterschiedlichen Risiken einhergehen können (bspw. Verfügbarkeit von Daten, benötigte Ressourcen etc.) und differenzierter Risikosteuerungsmethoden bedürfen.

Die Autoren dieses Beitrags sehen den Vorschlag eines morphologischen Kastens zur Charakterisierung von Data-Science-Projekten zudem als Ausgangsbasis für den Einstieg in einen wissenschaftlichen Diskurs an – mit dem Potenzial, fortlaufend adaptiert und/oder erweitert zu werden. Zukünftige Forschung könnte auch bspw. den stärker systematischen Ansätzen von Nickerson et al. [12] und Kundisch et al. [8] folgen und eine neue Taxonomie für die Charakterisierung von Data-Science-Projekten auf Basis empirischer Daten entwickeln.

Literatur

Aho T, Sievi-Korte O, Kilamo T, Yaman S, Mikkonen T (2020) Demystifying data science projects: a look on the people and process of data science today. In: Morisio M, Torchiano M, Jedlitschka A (Hrsg) Product-focused software process improvement, Bd. 12562. Springer, Cham, S 153–167
Chapter Google Scholar
Bichler M, Heinzl A, van der Aalst W (2017) Business analytics and data science: once again? Bus Inf Syst Eng 59:77–79
Article Google Scholar
Bink R, Zschech P (2018) Predictive Maintenance in der industriellen Praxis. HMD Prax Wirtsch 55:552–565
Article Google Scholar
Brauweiler H‑C (2015) Risikomanagement in Unternehmen. Springer, Wiesbaden
Google Scholar
Chen M, Mao S, Liu Y (2014) Big Data: A Survey. Mob Networks Appl 19:171–209
Article Google Scholar
Gluchowski P (2001) Business Intelligence: Konzepte, Technologien und Einsatzbereiche. HMD Prax Wirtsch 222:5–15
Google Scholar
Kaufmann J, Kühnel S, Theuerkauf R, Alekosai EM, Hoseini S, Neuhaus U, Schulz M (2021) Where is the science in data science projects? In: Gesellschaft für Informatik e. V. (GI) (Hrsg) Informatik 2021. Gesellschaft für Informatik, Bonn, S 1729–1741
Google Scholar
Kundisch D, Muntermann J, Oberländer AM, Rau D, Röglinger M, Schoormann T, Szopinski D (2021) An update for taxonomy designers. Bus Inf Syst Eng 64:421–439. https://doi.org/10.1007/s12599-021-00723-x
Article Google Scholar
Martinez I, Viles EG, Olaizola IG (2021) A survey study of success factors in data science projects. In: 2021 IEEE International Conference on Big Data, S 2313–2318
Chapter Google Scholar
Martinez I, Viles E, Olaizola IG (2021) Data science methodologies: current challenges and future approaches. Big Data Res 24:100183
Article Google Scholar
Mobley RK (2002) Introduction to predictive maintenance, 2. Aufl. Plant Engineering Ser. Elsevier Science & Technology, Oxford
Google Scholar
Nickerson RC, Varshney U, Muntermann J (2013) A method for taxonomy development and its application in information systems. Eur J Inf Syst 22:336–359
Article Google Scholar
Ritchey T (1998) Fritz Zwicky, Morphologie and policy analysis. In: 16th Euro Conference on Operational Analysis in Brussels, Belgium. FOA, Defence Research Establishment, S-17290 Stockholm, Sweden.
Saltz J, Shamshurin I, Connors C (2017) Predicting data science sociotechnical execution challenges by categorizing data science projects. J Assoc Inf Sci Technol 68:2720–2728
Article Google Scholar
Schlagwein D, Schoder D, Fischbach K (2010) Openness of Information Resources – A Framework-based Comparison of Mobile Platforms. ECIS 2010 Proceedings. Association for Information Systems (AIS). https://aisel.aisnet.org/ecis2010/163. Zugegriffen: 21.08.2022
Schulz M (2020) Data-Science-Projekte und ihre Besonderheiten. Wirtsch Inform Manag 12:376–381
Article Google Scholar
Schulz M, Neuhaus U, Kaufmann J, Kühnel S, Alekozai EM, Rohde H, Hoseini S, Theuerkauf R, Badura D, Kerzel U, Lanquillon C, Daurer S, Günther M, Huber L, Thiée L‑W, zur Heiden P, Passlick J, Dieckmann J, Schwade F, Seyffarth T, Badewitz W, Rissler R, Sackmann S, Gölzer P, Welter F, Röth J, Seidelmann J, Haneke U (2022) DASC-PM v1.1 – Ein Vorgehensmodell für Data-Science-Projekte. Universitäts- und Landesbibliothek Sachsen-Anhalt. http://dasc-pm.org. Zugegriffen: 21.08.2022
van der Aalst W (2016) Process mining. Springer, Berlin, Heidelberg
Book Google Scholar

Download references

Funding

Open Access funding enabled and organized by Projekt DEAL.

Author information

Authors and Affiliations

Martin-Luther-Universität Halle-Wittenberg, Halle (Saale), Deutschland
René Theuerkauf & Stephan Kühnel
DHBW Ravensburg, Ravensburg, Deutschland
Stephan Daurer
Hochschule Niederrhein, Mönchengladbach, Deutschland
Sayed Hoseini & Jens Kaufmann
Universität Koblenz, Koblenz, Deutschland
Florian Schwade
Robert Bosch GmbH, Stuttgart, Deutschland
Emal M. Alekozai
NORDAKADEMIE Hochschule der Wirtschaft, Elmshorn, Deutschland
Uwe Neuhaus & Michael Schulz
valantic, Hamburg, Deutschland
Heiko Rohde
Hochschule Niederrhein, Krefeld, Deutschland
Sayed Hoseini

Authors

René Theuerkauf
View author publications
You can also search for this author in PubMed Google Scholar
Stephan Daurer
View author publications
You can also search for this author in PubMed Google Scholar
Sayed Hoseini
View author publications
You can also search for this author in PubMed Google Scholar
Jens Kaufmann
View author publications
You can also search for this author in PubMed Google Scholar
Stephan Kühnel
View author publications
You can also search for this author in PubMed Google Scholar
Florian Schwade
View author publications
You can also search for this author in PubMed Google Scholar
Emal M. Alekozai
View author publications
You can also search for this author in PubMed Google Scholar
Uwe Neuhaus
View author publications
You can also search for this author in PubMed Google Scholar
Heiko Rohde
View author publications
You can also search for this author in PubMed Google Scholar
Michael Schulz
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to René Theuerkauf.

Additional information

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.

Rights and permissions

Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.

Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.

Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/licenses/by/4.0/deed.de.

Reprints and permissions

About this article

Cite this article

Theuerkauf, R., Daurer, S., Hoseini, S. et al. Vorschlag eines morphologischen Kastens zur Charakterisierung von Data-Science-Projekten. Informatik Spektrum 45, 395–401 (2022). https://doi.org/10.1007/s00287-022-01508-6

Download citation

Accepted: 29 September 2022
Published: 25 November 2022
Issue Date: December 2022
DOI: https://doi.org/10.1007/s00287-022-01508-6

Use our pre-submission checklist

Avoid common mistakes on your manuscript.

Vorschlag eines morphologischen Kastens zur Charakterisierung von Data-Science-Projekten

Zusammenfassung

Einleitung