Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht

Quelle: Link

In verschiedenen Blogbeiträgen hatte ich schon erwähnt, dass die aktuell noch dominierenden Trainingsdatenbanken (LLM: Large Language Models) der kommerziellen Anbieter wie OpenAI mit ChatGPT usw. wenig transparent sind. Diese Intransparenz, gepaart mit den immer lauter geäußerten Urheberverletzungen, und den immer deutlicher werdenden wirtschaftlichen Interessen der Tech-Giganten, lässt immer mehr Organisationen bei der Nutzung von Artificial Intelligence (A): künstlicher Intelligenz) nachdenklich werden. Um es hier noch einmal klarzustellen: OpenAI ist keine Open Source AI! Siehe dazu beispielsweise Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht.

In der Zwischenzeit gibt es viele spezielle Trainingsdatenbanken, die transparent und auch in ihren Datenvolumina kompakter sind. Was bisher noch fehlte war ein LLM, das auf der Basis der vorhandenen offenen Systeme wie Open Governement, Open Web, Open Science, Open Culture und Open Source Trainingsdaten bereit stellt, die neben Transparenz und freier Nutzbarkeit auch die immer wichtiger werdenden Urheberrechte berücksichtigt. In der Zwischenzeit gibt es Common Corpus: “Truly Open: contains only data that is permissively licensed”.

In dem Beitrag Langlait et al (2024): Releasing the largest multilingual open pretraining dataset vom 14.11.2024 auf Huggingface wird das Konzept und das Alleinstellungsmerkmal von Common Corpus als Teil der AI Alliance Open Trusted Data Initiative vorgestellt.

“Many have claimed that training large language models requires copyrighted data, making truly open AI development impossible. Today, Pleias is proving otherwise with the release of Common Corpus (part of the AI Alliance Open Trusted Data Initiative)—the largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information (2,003,039,184,047 tokens)” (Source).

Die immer wieder von den Tech-Giganten vorgebrachte Meinung, dass eine gute Trainingsdatenbank nicht ohne urheberrechtlich geschützte Daten auskommt, ist also falsch und soll wohl eher das eigene Geschäftsmodell schützen. Es ist beeindruckend zu sehen, wie dynamisch sich Open Source AI für viele Organisationen zu einer durchaus interessanten Alternative zu den etablierten AI-Systemen entwickelt.

Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht

In dem Beitrag Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co. hatte ich schon im August 2024 darauf hingewiesen, dass die Open Source Initiative (OSI) an einer Definition arbeitet die klärt, was unter Open Source AI zu verstehen ist.

Das ist deshalb besonders wichtig, da beispielsweise OpenAI sich eher zu einem von Microsoft dominierten Geschäftsmodell entwickelt. Auch LLama von Meta ist nicht wirklich Open Source, da einige wichtige Kriterien von Open Source AI nicht erfüllt sind. Meta verwendet dennoch in seinen Marketingaktivitäten bewusst den Begriff “Open Source” – hony soit qui mal y pense. Die am 21.10.2024 veröffentlichte Version von Open Source AI ist ein Release Candidate 2 (RC2):

An Open Source AI is an AI system made available under terms and in a way that grant the freedoms to:

Use the system for any purpose and without having to ask for permission.
Study how the system works and inspect its components.
Modify the system for any purpose, including to change its output.
Share the system for others to use with or without modifications, for any purpose.

These freedoms apply both to a fully functional system and to discrete elements of a system. A precondition to exercising these freedoms is to have access to the preferred form to make modifications to the system (Quelle).

Alle Large Language Models (LLM), die für Anwendungen der Künstlichen Intelligenz (Artificial Intelligence) genutzt werden, sollten also diesen Anforderungen genügen. Alleine der erste Eindruck zeigt schon, dass dies bei den meisten LLM nicht der Fall ist. Es wird Zeit, dass sich die aktuellen Anbieter nicht mehr mit dem Attribut “Open Source” schmücken können.

Künstliche Intelligenz: Warum sollten Forscher besser offene Large Language Models (LLM) nutzen?

Usage of large language models (LLMs) in behavioral and social sciences research (Wulff/Hussain/Mata 2024). Die Hervorhebung in Rot ist von mir (Robert Freund) ergänzt worden.

Natürlich verwenden immer mehr Wissenschaftler Künstlichen Intelligenz in ihrer Arbeit. Wie die Grafik zeigt, wird ChatGPT beispielsweise in den Verhaltens- und Sozialwissenschaften sehr stark genutzt. ChatGPT ist allerdings von OpenAI, dessen Large Language Model (LLM) als eher geschlossenes System (Closed LLM) bezeichnet werden kann, da das zugrundeliegende Datenmodell nicht transparent ist. Andere LLM – wie z.B. LLama – sind eher offen LLM (Open LLM), die gerade für Forschung und Wissenschaft geeigneter erscheinen.

In dem aktuellen Paper Wulff/Hussain/Mata (2024): The Behavioral and Social Sciences Need Open LLMs (PDF) argumentieren die Autoren dazu wie folgt:

Academic research should prefer open LLMs because they offer several practical and ethical advantages that are essential for scientific progress.

First, open models provide the transparency necessary for thorough scrutiny, allowing researchers to understand better the tools they are using and ensuring accountability.

Second, this transparency, combined with the adaptability of open models, facilitates innovation by enabling researchers to customize models to meet specific needs and explore new applications (Wulff & Mata, 2024).

Third, open LLMs support reproducibility, a cornerstone of scientific research, by allowing other researchers to replicate and build upon existing work.

Finally, the ethical implications of AI usage are better managed with open models, as they enable greater scrutiny of AI decisions, arguably reduce the risks of deploying biased or unethical systems, and avoid giving away data to further train closed, proprietary models.”

Ich frage mich an dieser Stelle, ob solche Hinweise nicht auch für die Nutzung von Künstlicher Intelligenz in Unternehmen gelten sollten.

Siehe dazu auch Künstliche Intelligenz: Vorteile von Open-Source-Modellen

Warum geschlossene Softwaresysteme auf Dauer viel Zeit und viel Geld kosten

Viele Einzelpersonen, Unternehmen, NGO und Öffentliche Verwaltungen haben sich an die Nutzung von allseits bekannter Software gewöhnt. Ob es ERP-Systeme für die technische und kaufmännische Abwicklung von Geschäftsprozessen sind, Webkonferenztools, Kollaborationssoftware usw. – für alles gibt es Anwendungen (Apps) der Marktführer Microsoft, SAP, Apple usw. usw. Die Anwendungen werden oft auch als eigenes Software-Ökosystem beschrieben, bei dem Personen oder Organisationen eben drinnen oder draußen sind – was die Sache schon etwas verkompliziert, wenn nicht sogar auf Dauer unwirtschaftlich macht. Warum könnte das so sein? Dazu habe ich einen Beitrag vom November 2023 gefunden, der das thematisiert und aus dem ich folgendes zitieren möchte:

In Deutschland haben sich sowohl der Mittelstand als auch viele Großunternehmen an geschlossene Softwaresysteme gebunden, die sie nur in dem Maße gestalten können, wie es die Hersteller der betreffenden Systeme zulassen. Wer als Automobilhersteller beispielsweise auf Apple Carplay setzt, kann neue Features nur dann liefern, wenn Apple das ermöglicht. Das gleiche gilt für Maschinenbauer, die zur Analyse der beim Betrieb ihrer Maschinen anfallenden Daten auf proprietäre Cloud-Lösungen setzen: Es geht dann nicht primär darum, was vorteilhaft wäre, sondern darum, was das System anbietet” (Ganten/Doenheim/Schröter 2023).

Diese einseitige digitale Abhängigkeit ist genau so gefährlich, wie es die Energieabhängigkeit von Russland (Gas) war, und von den Arabischen Staaten (ÖL) noch ist. Wenn Daten das neue Öl sind, so muss Deutschland, bzw. die Europäische Union auf eine Souveränität bei den Daten bestehen, die in der EU generiert werden. Diese Daten können aus meiner Sicht nur mit Hilfe von Open Source Anwendungen (statt geschlossene Anwendungen) geschützt und transparent behandelt werden. Darüber hinaus fördern Open Source Anwendungen den vielfältigen Austausch und somit den Mode 2 in der Wissensproduktion, was wiederum zu mehr Innovation und Agilität führt.

Mit OpenSpace Agility (OSA) zu einer schnellen, nachhaltigen agilen Transformation

Das OpenSpace Agility Handbook wurde von Daniel Mezick 2015 zusammen mit vier weiteren Autoren in englischer Sprache herausgegeben. 2019 haben sich dann deutschsprachige Autoren zusammengetan, und das OpenSpace Agility Handbuch in deutscher Sprache veröffentlicht. Es enthält viele grundlegende Informationen und praktische Ansätze dazu, wie eine Organisation die Transformation zu einer Agilen Organisation durchführen kann.

“OpenSpace Agility (OSA) ist eine zulässige Methodik für schnelle und nachhaltige agile Transformationen. Sie setzt auf dem auf, was Sie und Ihre Organisation derzeit tun und kann somit zu jedem Zeitpunkt eingesetzt werden. Der OSA-Ansatz ist iterativ inkrementell, wie die agilen Ansätze selbst. OSA hat einen klaren Startpunkt mit einem Open Space, einen definierten Mittelteil voller Experimente für gemeinsames Lernen und ein klares Ende für jeden Schritt in der Transformation – wieder mit einem Open Space. OSA vereint die Kraft von Einladungen, Open Space, Spielemechanik, Übergangsriten, Storytelling und mehr, um agile Ansätze in Ihrer Organisation zu verankern. OSA setzt in erster Linie auf die beteiligten Menschen und in zweiter Linie auf bestimmte Praktiken. Sie können also beliebige agile Praktiken oder Frameworks zusammen mit OSA einsetzten. Denn schnelle, effektive und nachhaltige Transformationen beruhen auf Menschen, nicht auf Frameworks, Beratern oder Coaches.” (Mezick et al. (2019:141-142): Das OpenSpace Agility Handbuch. Organisationen erfolgreich transformieren).

Interessant dabei ist, dass es möglich sein soll, agile Praktiken oder Frameworks zusammen mit OpenSpace Agility (OSA) zu nutzen, da sich OSA bei der Transformation hauptsächlich auf Menschen fokussiert. Wie im Text erwähnt, sollen dazu keine Berater oder Coaches nötig sein. Erstaunlich ist allerdings, dass sich einige Autoren auf ihren Webseiten als Agile Coaches bezeichnen…

Wenn es also um Menschen geht, geht es im Kern um die Transformation von Deutungsmuster (Mindsets), was wiederum das Kernelement der Erwachsenenbildung ist. Dass die Autoren aus der Erwachsenenbildung kommen, habe ich allerdings nirgends gelesen – möglicherweise habe ich es überlesen? Siehe dazu ausführlicher Digitale und ökologische Transformation bedeutet auch eine Transformation von Deutungsmustern. Dabei geht es auch um die Stärkung der Selbstorganisation (Kompetenz als Selbstorganisationsdisposition) auf der Ebene des Individuums, der Teams, der Organisation und des Netzwerks. Daraus ergibt sich für mich die Frage: Ist die immer wieder beschworene Transformation von Organisationen ein modernes Kompetenzmanagement? Siehe dazu auch Freund, R. (2011): Das Konzept der Multiplen Kompetenz auf den Analyseebenen Individuum, Gruppe, Organisation und Netzwerk.

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen, die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.

Closing Open Innovation – was soll das sein?

Image by ???? ????????? from Pixabay

Wenn es um Open Innovation geht, ist meistens die Perspektive von Henry Chesbrough (2003) gemeint. Dabei geht es um die Öffnung des bis dahin hauptsächlich geschlossenen Innovationsprozesses (Closed Innovation) – eben Open Innovation. Zu beachten ist hier, dass der Autor den Begriff Open Innovation in Verbindung mit Unternehmen sieht. Wenig erforscht ist, dass auch viele Open Innovation Initiativen scheiterten und in dem Zusammenhang gestoppt wurden. Um dieses Closing Open Innovation geht es in dem folgenden Paper.

“Closing open innovation may refer to canceling a specific open innovation initiative and reducing a firm’s general use of open innovation (cf. Granstrand and Holgersson, 2014). In this article, we focus primarily on the closing of specific initiatives” Holgersson, Marcus & Wallin, Martin & Chesbrough, Henry & Dahlander, Linus. (2022). CLOSING OPEN INNOVATION | Link.

Die Autoren verweisen auf verschiedene Unternehmensinitiativen. Beispielsweise auf eine Open Innovation Community, die Probleme mit der rechtlichen Situation hatte und geschlossen wurde. Weiterhin wird Quirky genannt, ein Start-up, das allerdings seine Betriebskosten nicht dauerhaft decken konnte – usw.

Es wird deutlich, dass mit dem Start einer Open Innovation Initiative in einer Organisation auch daran gedacht werden sollte, wie diese Initiative auch wieder beendet werden kann. Dieser Punkt soll natürlich kein KO-Kriterium für Open Innovation Initiativen in Organisationen sein, doch wurde Closing Innovation bisher zu wenig beachtet.

Darüber hinaus habe ich in unserem Blog schon mehrfach darauf verwiesen, dass es neben der Perspektive von Chesbrough auch noch die Perspektive von Eric von Hippel auf Open Innovation gibt. Eric von Hippel geht dabei nicht von Unternehmen/Organisationen, sondern von jedem Einzelnen aus – Free Innovation. Auch hier könnte es Sinn machen, über Closing Innovation nachzudenken.

Der grenzenlose Markt für Open, Digital and Distance Education (ODDE)

Immer mehr staatliche Institutionen und private Organisationen haben erkannt, dass es einen grenzenlosen Markt für digitale Angebote gibt – natürlich auch für digitale Bildungs- und Weiterbildungsangebote. Dabei konkurrieren auf dem Markt einerseits Wirtschaftsunternehmen, die ihre auf wirtschaftliche Prozesse ausgerichteten IT-Strukturen als Lernplattformen verkaufen, und andererseits Open Source Plattformen mit ihren manchmal begrenzten Ressourcen. Weiterhin ist erwähnenswert, dass es nicht nur kostenpflichtigen Content auf dem Markt gibt, sondern immer mehr frei verfügbaren Content – Open Content mit Open Educational Resources (OER). Diese Gemengelage mit ihren technischen, wirtschaftlichen, aber auch methodisch-didaktischen Herausforderungen ist ein Feld mit enormer Komplexität, die von einzelnen Personen kaum zu durchdringen ist. Im Handbook of Open, Distance and Digital Education 2022 findet sich dazu folgender Artikel:

“The rate of growth of the global market for ODDE is unprecedented. Both the public and private sectors are capitalizing on the seemingly limitless opportunities to expand educational offerings and the innovative delivery of ODDE. (…) It has become increasingly evident that ODDE is a valuable asset to gain, maintain, and ensure employability and to meet national economic development goals. The ODDE market is not only providing educational opportunities to the individual user but also creating educational capacity for government strategic planning and training for corporations” (Borges et al. 2022: The Borderless Market for Open, Distance, and Digital Education | PDF. Siehe dazu auch Kollaborationsplattformen fördern neue Formen der Zusammenarbeit.

Auch wir bewegen uns mit den von uns entwickelten Blended Learning Lehrgängen Projektmanager/in (IHK) und Projektmanager/in AGIL (IHK) in diesem Markt. Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer  Lernplattform.

Digitale Transformation kann ohne Open Source nicht gelingen

Image by Pexels from Pixabay

Die digitale Transformation wird von vielen IT-Konzernen propagiert. Dabei setzen die meisten auf ein eigenes IT-Ökosystem, das freies Gestalten von Innovationen begrenzt, und somit zielgerichtet leitet. Diese Ziele müssen nicht unbedingt die sein, die für eine Gesellschaft wichtig sind. Es stellt sich daher die Frage, ob für eine digitale Transformation von Gesellschaften nicht offene Systeme wichtig, ja sogar erforderlich sind. In der Expertise Open Source als Innovationstreiber für Industrie 4.0 (Forschungsbeirat der Plattform Industrie 4.0 / acatech – Deutsche Akademie der Technikwissenschaften 2022) findet sich zu diesem Thema folgender Text:

“Die Open Source-Bewegung folgt dem Sharing-Leitmotiv. Ihr Hauptziel ist eine frei zugängliche Bereitstellung von Quellcode, damit Menschen und Unternehmen die Möglichkeit haben, diesen zu nutzen, anzupassen und zu verbreiten. Auch die Veröffentlichung von Bauplänen als Open Hardware oder die Bereitstellung und Nutzung von Daten als Open Data sind Ausdruck des Sharing Mindsets, ebenso wie offene Innovationsprozesse mit firmeninternen und externen Kräften (Open Innovation). Allen diesen Strömungen gemein ist das begründete Vertrauen darauf, in intakten und offenen Ökosystemen Geschäftspotenziale gemeinsam besser zu heben, zum Beispiel durch größere Innovationskraft, bessere Stabilität und IT-Sicherheit oder durch die Vermeidung von Lizenzkosten. OSS ist mittlerweile ein fester Bestandteil der digitalen Wirtschaft und nahezu sämtlicher Innovationsprozesse – und zwar grenzüberschreitend und unter Beteiligung zahlreicher und vielfältiger Unternehmen. Sie ist aus der heutigen Welt nicht mehr wegzudenken. Es scheint offensichtlich zu sein, dass die digitale Transformation ohne den Einsatz von Open Source nicht gelingen kann” ( Forschungsbeirat der Plattform Industrie 4.0 / acatech – Deutsche Akademie der Technikwissenschaften 2022:7).

Ergänzend möchte ich allerdings anmerken, dass der Hinweis auf Open Innovation leider – wie so oft – nur die Perspektive von Henry Chesbrough enthält. Die Perspektive von Eric von Hippel, der von einem Bottom-Up-Ansatz ausgeht (Free Innovation), wird nicht angesprochen (Siehe Literaturverzeichnis).