In verschiedenen Blogbeiträgen hatte ich schon erwähnt, dass die aktuell noch dominierenden Trainingsdatenbanken (LLM: Large Language Models) der kommerziellen Anbieter wie OpenAI mit ChatGPT usw. wenig transparent sind. Diese Intransparenz, gepaart mit den immer lauter geäußerten Urheberverletzungen, und den immer deutlicher werdenden wirtschaftlichen Interessen der Tech-Giganten, lässt immer mehr Organisationen bei der Nutzung von Artificial Intelligence (A): künstlicher Intelligenz) nachdenklich werden. Um es hier noch einmal klarzustellen: OpenAI ist keine Open Source AI! Siehe dazu beispielsweise Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht.
In der Zwischenzeit gibt es viele spezielle Trainingsdatenbanken, die transparent und auch in ihren Datenvolumina kompakter sind. Was bisher noch fehlte war ein LLM, das auf der Basis der vorhandenen offenen Systeme wie Open Governement, Open Web, Open Science, Open Culture und Open Source Trainingsdaten bereit stellt, die neben Transparenz und freier Nutzbarkeit auch die immer wichtiger werdenden Urheberrechte berücksichtigt. In der Zwischenzeit gibt es Common Corpus: “Truly Open: contains only data that is permissively licensed”.
In dem Beitrag Langlait et al (2024): Releasing the largest multilingual open pretraining dataset vom 14.11.2024 auf Huggingface wird das Konzept und das Alleinstellungsmerkmal von Common Corpus als Teil der AI Alliance Open Trusted Data Initiative vorgestellt.
“Many have claimed that training large language models requires copyrighted data, making truly open AI development impossible. Today, Pleias is proving otherwise with the release of Common Corpus (part of the AI Alliance Open Trusted Data Initiative)—the largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information (2,003,039,184,047 tokens)” (Source).
Die immer wieder von den Tech-Giganten vorgebrachte Meinung, dass eine gute Trainingsdatenbank nicht ohne urheberrechtlich geschützte Daten auskommt, ist also falsch und soll wohl eher das eigene Geschäftsmodell schützen. Es ist beeindruckend zu sehen, wie dynamisch sich Open Source AI für viele Organisationen zu einer durchaus interessanten Alternative zu den etablierten AI-Systemen entwickelt.