Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht

Quelle: Link

In verschiedenen Blogbeiträgen hatte ich schon erwähnt, dass die aktuell noch dominierenden Trainingsdatenbanken (LLM: Large Language Models) der kommerziellen Anbieter wie OpenAI mit ChatGPT usw. wenig transparent sind. Diese Intransparenz, gepaart mit den immer lauter geäußerten Urheberverletzungen, und den immer deutlicher werdenden wirtschaftlichen Interessen der Tech-Giganten, lässt immer mehr Organisationen bei der Nutzung von Artificial Intelligence (A): künstlicher Intelligenz) nachdenklich werden. Um es hier noch einmal klarzustellen: OpenAI ist keine Open Source AI! Siehe dazu beispielsweise Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht.

In der Zwischenzeit gibt es viele spezielle Trainingsdatenbanken, die transparent und auch in ihren Datenvolumina kompakter sind. Was bisher noch fehlte war ein LLM, das auf der Basis der vorhandenen offenen Systeme wie Open Governement, Open Web, Open Science, Open Culture und Open Source Trainingsdaten bereit stellt, die neben Transparenz und freier Nutzbarkeit auch die immer wichtiger werdenden Urheberrechte berücksichtigt. In der Zwischenzeit gibt es Common Corpus: “Truly Open: contains only data that is permissively licensed”.

In dem Beitrag Langlait et al (2024): Releasing the largest multilingual open pretraining dataset vom 14.11.2024 auf Huggingface wird das Konzept und das Alleinstellungsmerkmal von Common Corpus als Teil der AI Alliance Open Trusted Data Initiative vorgestellt.

“Many have claimed that training large language models requires copyrighted data, making truly open AI development impossible. Today, Pleias is proving otherwise with the release of Common Corpus (part of the AI Alliance Open Trusted Data Initiative)—the largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information (2,003,039,184,047 tokens)” (Source).

Die immer wieder von den Tech-Giganten vorgebrachte Meinung, dass eine gute Trainingsdatenbank nicht ohne urheberrechtlich geschützte Daten auskommt, ist also falsch und soll wohl eher das eigene Geschäftsmodell schützen. Es ist beeindruckend zu sehen, wie dynamisch sich Open Source AI für viele Organisationen zu einer durchaus interessanten Alternative zu den etablierten AI-Systemen entwickelt.

Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht

In dem Beitrag Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co. hatte ich schon im August 2024 darauf hingewiesen, dass die Open Source Initiative (OSI) an einer Definition arbeitet die klärt, was unter Open Source AI zu verstehen ist.

Das ist deshalb besonders wichtig, da beispielsweise OpenAI sich eher zu einem von Microsoft dominierten Geschäftsmodell entwickelt. Auch LLama von Meta ist nicht wirklich Open Source, da einige wichtige Kriterien von Open Source AI nicht erfüllt sind. Meta verwendet dennoch in seinen Marketingaktivitäten bewusst den Begriff “Open Source” – hony soit qui mal y pense. Die am 21.10.2024 veröffentlichte Version von Open Source AI ist ein Release Candidate 2 (RC2):

An Open Source AI is an AI system made available under terms and in a way that grant the freedoms to:

Use the system for any purpose and without having to ask for permission.
Study how the system works and inspect its components.
Modify the system for any purpose, including to change its output.
Share the system for others to use with or without modifications, for any purpose.

These freedoms apply both to a fully functional system and to discrete elements of a system. A precondition to exercising these freedoms is to have access to the preferred form to make modifications to the system (Quelle).

Alle Large Language Models (LLM), die für Anwendungen der Künstlichen Intelligenz (Artificial Intelligence) genutzt werden, sollten also diesen Anforderungen genügen. Alleine der erste Eindruck zeigt schon, dass dies bei den meisten LLM nicht der Fall ist. Es wird Zeit, dass sich die aktuellen Anbieter nicht mehr mit dem Attribut “Open Source” schmücken können.

Aktuelle Studie der ETH Zürich: Kein populäres LLM entspricht den EU AI Act – Anforderungen

Künstliche Intelligenz mit seinen vielfältigen Möglichkeiten wird immer populärer. Die Europäische Union hat daher schon 2023 versucht, die Entwicklung so zu regulieren, dass einerseits (persönliche und organisationale) Rechte garantiert bleiben und anderseits, die Entwicklung von Innovationen nicht unnötig gebremst wird. Siehe dazu ausführlicher: EU AI Act: first regulation on artificial intelligence.

Natürlich stellt sich dabei sofort die Frage, ob die populären KI-Anwendungen mit ihren verwendeten Large Language Models (LLMs) diesen Anforderungen gerecht werden. In einer umfassenden Studie wurde das an der ETH Zürich nun untersucht, und am 10. Oktober 2024 veröffentlicht. Das Ergebnis ist ernüchternd;

“Finally, we applied our benchmarking suite to evaluate 12 popular LLMs, identifying that both current models and state-of-the-art benchmarks exhibit critical shortcomings in the context of the Act. In particular, none of the examined models are fully compliant with the requirements of the EU AI Act, and certain technical requirements cannot be currently assessed with the available set of tools and benchmarks, either due to a lack of understanding of relevant model aspects (e.g., explainability), or due to inadequacies in current benchmarks (e.g., privacy)” (Guldimann et al. (2024): COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act | PDF).

Ich bin sehr gespannt, was nun passiert, oder auch nicht passiert. Wird sich die EU mit ihren Anforderungen an KI-Anwendungen stärker durchsetzen, oder wird die Lobbyarbeit der verschiedenen Anbieter die Vorgaben mit der Zeit “aufweichen”. Möglicherweise gibt es auch einen dritten Weg: Open Source LLM erfüllt die Anforderungen und ist so leistungsfähig, wie die oftmals kommerziellen Angebote. Warum eigentlich nicht?

Künstliche Intelligenz: Warum sollten Forscher besser offene Large Language Models (LLM) nutzen?

Usage of large language models (LLMs) in behavioral and social sciences research (Wulff/Hussain/Mata 2024). Die Hervorhebung in Rot ist von mir (Robert Freund) ergänzt worden.

Natürlich verwenden immer mehr Wissenschaftler Künstlichen Intelligenz in ihrer Arbeit. Wie die Grafik zeigt, wird ChatGPT beispielsweise in den Verhaltens- und Sozialwissenschaften sehr stark genutzt. ChatGPT ist allerdings von OpenAI, dessen Large Language Model (LLM) als eher geschlossenes System (Closed LLM) bezeichnet werden kann, da das zugrundeliegende Datenmodell nicht transparent ist. Andere LLM – wie z.B. LLama – sind eher offen LLM (Open LLM), die gerade für Forschung und Wissenschaft geeigneter erscheinen.

In dem aktuellen Paper Wulff/Hussain/Mata (2024): The Behavioral and Social Sciences Need Open LLMs (PDF) argumentieren die Autoren dazu wie folgt:

Academic research should prefer open LLMs because they offer several practical and ethical advantages that are essential for scientific progress.

First, open models provide the transparency necessary for thorough scrutiny, allowing researchers to understand better the tools they are using and ensuring accountability.

Second, this transparency, combined with the adaptability of open models, facilitates innovation by enabling researchers to customize models to meet specific needs and explore new applications (Wulff & Mata, 2024).

Third, open LLMs support reproducibility, a cornerstone of scientific research, by allowing other researchers to replicate and build upon existing work.

Finally, the ethical implications of AI usage are better managed with open models, as they enable greater scrutiny of AI decisions, arguably reduce the risks of deploying biased or unethical systems, and avoid giving away data to further train closed, proprietary models.”

Ich frage mich an dieser Stelle, ob solche Hinweise nicht auch für die Nutzung von Künstlicher Intelligenz in Unternehmen gelten sollten.

Siehe dazu auch Künstliche Intelligenz: Vorteile von Open-Source-Modellen

Top 100 Tools for Learning 2024

Quelle: Tools for Learning

Es ist nicht verwunderlich, dass immer mehr KI-Anwendungen in der Liste der 100 Tools for Learning auftauchen. ChatGPT ist vom 4. auf den 2. Platz vorgerückt und weitere KI-Copilots tauchen in der Liste auf, bzw. rücken auch in den Platzierung vor. Es sieht so aus, als ob immer mehr KI-Anwendungen für Lernprozesse genutzt werden.

Es ist daher für viele an der Zeit, sich mit den Möglichkeiten und Beschränkungen von KI-Anwendungen bei Lernprozessen zu befassen. Am besten geht das in Unternehmen natürlich im Prozess der Arbeit: Kompetenzentwicklung im Prozess der Arbeit.

Erwähnen möchte ich hier, dass mir in der Liste Open-Source-KI-Anwendungen fehlen oder zu kurz kommen. Viele der KI-Anwendungen sind von Microsoft und Google dominiert, auch wenn z.B. ChatGPT von OpenAI ist und suggeriert, dass die Anwendung “Open” ist. Siehe dazu Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co. und Künstliche Intelligenz: Vorteile von Open Source Modellen.

Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co.

OpenAI ist mit ChatGPT etc. inzwischen weltweit erfolgreich am Markt. Angefangen hat das damalige Start-up mit der Idee, Künstliche Intelligenz (AI) als Anwendung offen, und damit frei verfügbar und transparent anzubieten. – ganz im Sinne der Open Source Idee.

Durch den Einstieg von Microsoft ist der Name OpenAI zwar geblieben, doch sind die Angebote in der Zwischenzeit eher als geschlossenes, intransparentes System einzuordnen, mit dem die Inhaber (Shareholder) exorbitante Gewinne erzielen möchten.

Dieser Problematik hat sich eine Personengruppe angenommen, und eine erste Definition für Open Source AI erarbeitet, anhand der die aktuellen KI-Apps bewertet werden können: In dem Artikel MIT Technology Review (2024): We finally have a definition for open-source AI (Massachusetts Institut of Technology, 22.08.224) findet sich dazu folgendes:

“According to the group, an open-source AI system can be used for any purpose without securing permission, and researchers should be able to inspect its components and study how the system works.

It should also be possible to modify the system for any purpose—including to change its output—and to share it with others to usewith or without modificationsfor any purpose. In addition, the standard attempts to define a level of transparency for a given model’s training data, source code, and weights.”

Die Intransparenz der Trainingsdaten bei den eher geschlossenen KI-Systemen von OpenAI, Meta und Google führt aktuell dazu, dass sich diese Unternehmen mit sehr vielen Klagen und Rechtstreitigkeiten auseinandersetzen müssen.

Die Open Source Initiative (OSI) plant, eine Art Mechanismus zu entwickeln, der bei den jeweiligen KI-Anwendungen anzeigt, ob es sich wirklich um Open Source KI-Anwendungen handelt

Interessant ist, dass dieser Gedanke bei Nextcloud mit seinem Ethical AI Ansatz schon vorweggenommen wurde.

Projektmanagement: KI-Unterstützung der ICB 4.0 Kompetenzen

Künstliche Intelligenz (KI) oder auch Artificial Intelligence (AI) ist mit seinen unglaublichen Möglichkeiten in aller Munde – natürlich auch im Projektmanagement. Ein guter Bezugspunkt für eine KI-Unterstützung im Projektmanagement kann die ICB 4.0 (Individual Competence Baseline 4.0) sein, die von der International Project Management Association (IPMA) zur Professionalisierung des Projekt-, Programm- und Portfoliomanagements veröffentlicht wurde. In der ICB 4.0 sind insgesamt 28 Kompetenzen definiert, die in drei Kategorien gegliedert sind. Jeder Kategorie kann durch KI unterstützt werden.

KategorieThemenKI-Unterstützung
Kontextuelle KompetenzenStrategie, Kultur, Werte etc.Einhaltung der Governance-Richtlinien
Persönliche und soziale KompetenzenPersönliche Integrität, Verlässlichkeit, Teamarbeit etc.Kommunikations-
verhalten einzelner Teammitglieder
Technische KompetenzenProjektplanung und Steuerung, Risikomanagement etc.Virtuelle KI-Assistenten
In Anlehnung an Schelter, N. (2024)

Grundsätzlich halte ich diese strukturierte KI-Unterstützung auf Basis der ICB 4.0 – Kompetenzen für sinnvoll. Dennoch möchte ich folgendes anmerken:

(1) Es handelt sich hier möglicherweise um ein Mismatch von Begrifflichkeiten. Einerseits sprechen wir von Kompetenzen, andererseits von Künstlicher Intelligenz. Hier gibt es durchaus Unterschiede, die zu beachten sind. Siehe dazu beispielsweise Kompetenzen, Regeln, Intelligenz, Werte und Normen – Wie passt das alles zusammen?

(2) Als Leser unseres Blogs wissen Sie, dass ich eher das Konzept der Multiplen Kompetenz auf den Analyseebenen Individuum, Gruppe, Organisation und Netzwerk bevorzuge.

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen Projektmanager/in (IHK) und Projektmanager/in AGIL (IHK). Informationen dazu, und zu aktuellen Terminen, finden Sie auf unserer Lernplattform.

Projektmanager: Soziale Interaktionsprozesse und ihre Bedeutung für den Einsatz von Künstlicher Intelligenz (KI)

AdobeStock_527653115

Die Rolle eines Projektmanagers, einer Projektmanagerin, ist vielschichtig. In der Theorie gibt es viele Themen die abgedeckt werden sollen. Dazu zählen planerische, kontrollierende und steuernde Tätigkeiten, Kommunikation und Organisation. Darüber hinaus gehören auch Führungsaufgaben, Weisungen und Entscheidungen zum Arbeitsfeld. Zu all den genannten Punkten gibt es in der Literatur viele Hinweise zur möglichen Umsetzung, doch kommen in der Praxis viele soziale Interaktionen hinzu.

Eigene Darstellung – Quelle: Barth/Sarstedt (2024)

“Ohne soziales Miteinander und soziale Interaktionsprozesse ist kein Projekt zielführend zum Abschluss zu bringen. Der Begriff sozial ist aus dem lat. „sozialis“ abgeleitet, was so viel wie gesellschaftlich, gemeinnützig bzw. hilfsbereit bedeuten kann. Die soziale Interaktion sollte demnach auch innerhalb von einem Projekt von gemeinschaftlichem und sich unterstützendem Handeln geprägt sein” (Barth/Sarstedt 2024).

Betrachten wir die Prozesse in der Realität (Abbildung) so wird deutlich, dass neben den technischen auch viele sozialen Interaktionsprozesse für den Erfolg von Projekten nötig sind. Beispielsweise zählen kognitive und menschliche Sensorik zu einzusetzen, Mensch zu sein (z.B. Emotionen zu zeigen) oder auch Verantwortung zu tragen. zu den jeweiligen Punkten sind in der Abbildung weitere Unterpunkte genannt, auf die ich hier nicht weiter eingehen möchte.

Die gesamten sozialen Interaktionsprozesse können durch “kognitive Empathie und Fingerspitzengefühl” (ebd.) erschlossen werden. An dieser Stelle führt das zu der Frage, inwieweit Künstliche Intelligenz (KI) solche Bereiche abdecken kann. Aktuelle sieht es so aus, dass der Nutzen von Künstlicher Intelligenz (KI) zunächst auf den Punkten liegt, die auf der Seite “Theorie” stehen. Auf der Seite “Praxis” stehen allerdings viele Punkte, die von Künstlicher Intelligenz (aktuell noch) nicht abgedeckt werden. Es wird als Projektmanager daher darauf ankommen, beide Potentiale für das Projektmanagement sinnvoll und angemessen zu nutzen. Siehe dazu auch Mensch und Künstliche Intelligenz: Engineering bottlenecks und die fehlende Mitte.

Informationen zu den von uns entwickelten Blended Learning Lehrgängen Projektmanager/in (IHK) und Projektmanager/in Agil (IHK), die wir an verschiedenen Standorten anbieten, finden Sie auf unserer Lernplattform.

Nextcloud-Assistent – Lokales LLM als Assistent in Nextcloud integriert

Nextcloud ist eine Open Source Anwendung, die durch verschiedene Apps an die individuellen Anforderungen angepasst werden kann. Damit die Arbeit noch zeitgemäßer, und somit KI-unterstützt durchgeführt werden kann, wurde 2023 die erste Version des Nextcloud Assistenten veröffentlicht. Wir haben nun die Version 1.03 vom Dezember 2023 bei uns problemlos installiert.

Das Symbol für den Nextcloud Assistenten erscheint in der oberen Leiste des Dashboards und in allen Apps, die in unserer Nextcloud verwendet werden. Wie in der Abbildung zu sehen ist, können dabei Context Chat, Free Prompt oder Generate Headline aufgerufen werden. Weitere Funktionen, die sich hinter den drei Punkten verbergen sind Summarize und Reformulate.

Es ist wirklich erstaunlich, wie dynamisch sich Nextcloud entwickelt und die vielfältigen KI-Möglichkeiten integriert – alles Open Source.

Nextcloud: Geeignete KI-Apps selbst auswählen – ein Beispiel

Anwendungen zur Künstliche Intelligenz (KI) gibt es in der Zwischenzeit “wie Sand am Meer”. Dabei decken die kommerziellen Anwendungen einen Großteil des Marktes ab. Immer mehr Organisationen sehen darin allerdings auch Risiken, sodass Open Source Anwendungen , wie z.B. Nextcloud, in den Fokus rücken.

Dabei ist Nextcloud als Kollaborationsplattform mit den Anwendungen zu Dokumenten, Bildern, Webkonferenzen (Talk), Whiteboards, Tasks- bzw. KANBAN Boards, Open Project usw. in der Lage an jeder Stelle der verschiedenen Anwendungen KI-Apps aufzurufen (Smart Picker), die ebenfalls Open Source basiert sind.

Diese KI-Apps sind hier nicht vorgegeben, sondern können je nach Organisation zusammengestellt werden. Die Möglichkeit der eigenen Konfiguration von KI-Apps, die dann auch noch mit Hilfe von Ampelfarben (Rot-Gelb-Grün) charakterisiert sind, ergibt enorme eigene Gestaltungsspielräume.

Die Abbildung zeigt beispielhaft einen Screenshot von unserer Nextcloud, in der ich DECK als Taskboard (KANBAN Board) aufgerufen habe. Innerhalb eines Tasks (Tickets) kann ich im Textfeld mit Hilfe des Smart Pickers verschiedene Anwendungen aufrufen. In dem Beispiel habe ich die KI-App Whisper ausgewählt (AI speech-to-text) mit deren Hilfe ich jetzt einen gesprochen Text erfassen kann. Nextcloud charakterisiert diese Anwendung mit Gelb (Rot-Orange-Gelb-Grün). Ziel der Integration vieler Open Source Anwendungen in einer modernen Kollaborationsplattform ist der Souveräne Arbeitsplatz.

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen Projektmanager/in (IHK) und Projektmanager/in AGIL (IHK). Informationen dazu, und zu aktuellen Terminen, finden Sie auf unserer Lernplattform.