Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht

Quelle: Link

In verschiedenen Blogbeiträgen hatte ich schon erwähnt, dass die aktuell noch dominierenden Trainingsdatenbanken (LLM: Large Language Models) der kommerziellen Anbieter wie OpenAI mit ChatGPT usw. wenig transparent sind. Diese Intransparenz, gepaart mit den immer lauter geäußerten Urheberverletzungen, und den immer deutlicher werdenden wirtschaftlichen Interessen der Tech-Giganten, lässt immer mehr Organisationen bei der Nutzung von Artificial Intelligence (A): künstlicher Intelligenz) nachdenklich werden. Um es hier noch einmal klarzustellen: OpenAI ist keine Open Source AI! Siehe dazu beispielsweise Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht.

In der Zwischenzeit gibt es viele spezielle Trainingsdatenbanken, die transparent und auch in ihren Datenvolumina kompakter sind. Was bisher noch fehlte war ein LLM, das auf der Basis der vorhandenen offenen Systeme wie Open Governement, Open Web, Open Science, Open Culture und Open Source Trainingsdaten bereit stellt, die neben Transparenz und freier Nutzbarkeit auch die immer wichtiger werdenden Urheberrechte berücksichtigt. In der Zwischenzeit gibt es Common Corpus: “Truly Open: contains only data that is permissively licensed”.

In dem Beitrag Langlait et al (2024): Releasing the largest multilingual open pretraining dataset vom 14.11.2024 auf Huggingface wird das Konzept und das Alleinstellungsmerkmal von Common Corpus als Teil der AI Alliance Open Trusted Data Initiative vorgestellt.

“Many have claimed that training large language models requires copyrighted data, making truly open AI development impossible. Today, Pleias is proving otherwise with the release of Common Corpus (part of the AI Alliance Open Trusted Data Initiative)—the largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information (2,003,039,184,047 tokens)” (Source).

Die immer wieder von den Tech-Giganten vorgebrachte Meinung, dass eine gute Trainingsdatenbank nicht ohne urheberrechtlich geschützte Daten auskommt, ist also falsch und soll wohl eher das eigene Geschäftsmodell schützen. Es ist beeindruckend zu sehen, wie dynamisch sich Open Source AI für viele Organisationen zu einer durchaus interessanten Alternative zu den etablierten AI-Systemen entwickelt.

Gesellschaft für Informatik e.V. (2012): Memorandum zur Öffnung von Staat und Verwaltung (Open Government)

Das Positionspapier Gesellschaft für Informatik e.V. (2012): Memorandum zur Öffnung von Staat und Verwaltung (Open Government) ist ein Aufruf an die Bürokratie (Herrschaft der Verwaltung, Quelle: Wikipedia), sich zu öffnen und dafür auch neue Technologien zu nutzen. Das ist einerseits nicht besonders überraschend, berücksichtig man den Herausgeber, die Gesellschaft für Informatik e.V. Interessant ist allerdings, dass es sich hier um die Fachgruppe Verwaltungsinformatik handelt, was eine eher verwaltungsorientierte Perspektive auf das Thema vermuten lässt. Diese Vermutung wird bestätigt, wenn man sich den Text durchliest. Meiner Meinung nach versucht die Bürokratie (Herrschaft der Verwaltung, Quelle: Wikipedia), Open Government von Innen nach Außen kontrolliert zu steuern. Das halte ich eher für einen ingenieurwissenschaftlichen Ansatz, der dem komplexen gesellschaftlichen Gesamtsystem nicht gerecht wird. Wie würde Open Government denn aussehen, wenn es aus der Perspektive der Menschen (Bürger?) interpretiert würde – also eher Bottom-Up? Die Herrschaft der Verwaltung (Bürokratie) würde infrage gestellt – doch wer will das schon? Wie es funktionieren kann, zeigt dieses Beispiel. Die Entgrenzungstendenzen sind nicht zu stoppen, sondern können nur verzögert werden.

Wie Open Data und Open Government für die Bürger einer Stadt nützlich sein können, zeigt das Beispiel New York

Die deutsche Bürokratie ist immer noch sehr langsam bei der Umsetzung von Open Data-, bzw. Open Government – Projekten. Ich habe manchmal den Eindruck, als ob die bestehenden Strukturen der Bürokratie (Herrschaft der Verwaltung, Quelle: Wikipedia) noch immer nicht realisieren, dass die neuen technologischen Möglichkeiten nicht in Pilotprojekte abgeschottet getestet werden, sondern umgehend flächendeckend eingesetzt werden sollten. Das Beispiel Open Government Initiatives Helped New Yorkers Stay Connected During Hurricane Sandy (Techchrunch vom 11.01.2013) zeigt, dass diese Konzepte sogar in Krisenzeiten funktionieren. Der Beitrag ist nicht von irgendeinem Berater für IT-Systeme geschrieben worden, sondern von Rachel Sterne, die immerhin Chief Digital Officer for the City of New York ist. Warum also sollten die neuen Chancen nicht auch in “normalen Zeiten” nützlich sein? Die Bürokratie (Herrschaft der Verwaltung) sollte ihre Energie – und damit Steuergelder – nicht auf die Verhinderung und Verzögerung von Open Data bzw. Open Government verschwenden, sondern die neuen Möglichkeiten zum Wohle der Bürger einsetzen. Dazu müsste sich die Bürokratie (Herrschaft der Verwaltung) allerdings als Dienstleister für den Bürger verstehen – das wäre allerdings wirklich innovativ… Siehe dazu auch Symposium zu Global Open Innovation Networks und Ein Europa von unten als ein Gegenmodell zum vorherrschenden Europa von oben.