Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

“Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer” (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht

Quelle: Link

In verschiedenen Blogbeiträgen hatte ich schon erwähnt, dass die aktuell noch dominierenden Trainingsdatenbanken (LLM: Large Language Models) der kommerziellen Anbieter wie OpenAI mit ChatGPT usw. wenig transparent sind. Diese Intransparenz, gepaart mit den immer lauter geäußerten Urheberverletzungen, und den immer deutlicher werdenden wirtschaftlichen Interessen der Tech-Giganten, lässt immer mehr Organisationen bei der Nutzung von Artificial Intelligence (A): künstlicher Intelligenz) nachdenklich werden. Um es hier noch einmal klarzustellen: OpenAI ist keine Open Source AI! Siehe dazu beispielsweise Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht.

In der Zwischenzeit gibt es viele spezielle Trainingsdatenbanken, die transparent und auch in ihren Datenvolumina kompakter sind. Was bisher noch fehlte war ein LLM, das auf der Basis der vorhandenen offenen Systeme wie Open Governement, Open Web, Open Science, Open Culture und Open Source Trainingsdaten bereit stellt, die neben Transparenz und freier Nutzbarkeit auch die immer wichtiger werdenden Urheberrechte berücksichtigt. In der Zwischenzeit gibt es Common Corpus: “Truly Open: contains only data that is permissively licensed”.

In dem Beitrag Langlait et al (2024): Releasing the largest multilingual open pretraining dataset vom 14.11.2024 auf Huggingface wird das Konzept und das Alleinstellungsmerkmal von Common Corpus als Teil der AI Alliance Open Trusted Data Initiative vorgestellt.

“Many have claimed that training large language models requires copyrighted data, making truly open AI development impossible. Today, Pleias is proving otherwise with the release of Common Corpus (part of the AI Alliance Open Trusted Data Initiative)—the largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information (2,003,039,184,047 tokens)” (Source).

Die immer wieder von den Tech-Giganten vorgebrachte Meinung, dass eine gute Trainingsdatenbank nicht ohne urheberrechtlich geschützte Daten auskommt, ist also falsch und soll wohl eher das eigene Geschäftsmodell schützen. Es ist beeindruckend zu sehen, wie dynamisch sich Open Source AI für viele Organisationen zu einer durchaus interessanten Alternative zu den etablierten AI-Systemen entwickelt.

Nextcloud Hub 9 Open Source: Whiteboard kollaborativ bearbeiten. Ein weiterer Schritt zu einem souveränen Arbeitsplatz

Eigener Screenshot

Wie Sie wissen, nutzen wir auf unseren Servern Open Source Anwendungen, um kollaboratives Arbeiten zu unterstützen. Wir nutzen beispielsweise  OpenProject (Projektmanagement-Software) zusammen mit dem Lernmanagementsystem (LMS) Moodle, und WordPress als Blog. 

Als integrierte Kollaborationsanwendung nutzen wir Nextcloud, und zwar aktuell in der Version Nextcloud Hub 9, das am 14.09.2024 veröffentlicht wurde. Diese Version bietet viele neue und verbesserte Features. Unter anderem ist jetzt auch direkt ein Whiteboard integriert. Wenn ein Benutzer beispielsweise ein Dokument öffnen möchte, erscheint bei der Auswahl neben den üblichen Möglichkeiten wie Textdatei, Tabelle usw., auch die Auswahl Whiteboard.

Die Abbildung oben zeigt ein test-Whiteboard in dem ich unser Logo, einen kleinen Text und Pfeile dargestellt habe. Die einfache Oberfläche erinnert an TLDRAW, das ich schon in einem anderen Blogbeitrag als einzelnes Tool vorgestellt hatte. Die Integration in Nextcloud ermöglicht es nun, direkt kollaborativ in einem Whiteboard zu arbeiten – also ohne ein zusätzliches Tool nutzen zu müssen. Weiterhin können in einer Bibliothek Vorlagen hinterlegt werden. Der Export des Whiteboards ist in den üblichen Formaten möglich.

Durch die Integration des Whiteboards in die vielfältigen Möglichkeiten von Nextcloud bieten sich neue, spannende Chancen der Zusammenarbeit, bei der im Sinne eines Souveränen Arbeitsplatzes alle Daten auf dem eigenen Server bleiben.

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen Projektmanager/in (IHK) und Projektmanager/in Agil (IHK), die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.

Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht

In dem Beitrag Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co. hatte ich schon im August 2024 darauf hingewiesen, dass die Open Source Initiative (OSI) an einer Definition arbeitet die klärt, was unter Open Source AI zu verstehen ist.

Das ist deshalb besonders wichtig, da beispielsweise OpenAI sich eher zu einem von Microsoft dominierten Geschäftsmodell entwickelt. Auch LLama von Meta ist nicht wirklich Open Source, da einige wichtige Kriterien von Open Source AI nicht erfüllt sind. Meta verwendet dennoch in seinen Marketingaktivitäten bewusst den Begriff “Open Source” – hony soit qui mal y pense. Die am 21.10.2024 veröffentlichte Version von Open Source AI ist ein Release Candidate 2 (RC2):

An Open Source AI is an AI system made available under terms and in a way that grant the freedoms to:

Use the system for any purpose and without having to ask for permission.
Study how the system works and inspect its components.
Modify the system for any purpose, including to change its output.
Share the system for others to use with or without modifications, for any purpose.

These freedoms apply both to a fully functional system and to discrete elements of a system. A precondition to exercising these freedoms is to have access to the preferred form to make modifications to the system (Quelle).

Alle Large Language Models (LLM), die für Anwendungen der Künstlichen Intelligenz (Artificial Intelligence) genutzt werden, sollten also diesen Anforderungen genügen. Alleine der erste Eindruck zeigt schon, dass dies bei den meisten LLM nicht der Fall ist. Es wird Zeit, dass sich die aktuellen Anbieter nicht mehr mit dem Attribut “Open Source” schmücken können.

Aktuelle Studie der ETH Zürich: Kein populäres LLM entspricht den EU AI Act – Anforderungen

Künstliche Intelligenz mit seinen vielfältigen Möglichkeiten wird immer populärer. Die Europäische Union hat daher schon 2023 versucht, die Entwicklung so zu regulieren, dass einerseits (persönliche und organisationale) Rechte garantiert bleiben und anderseits, die Entwicklung von Innovationen nicht unnötig gebremst wird. Siehe dazu ausführlicher: EU AI Act: first regulation on artificial intelligence.

Natürlich stellt sich dabei sofort die Frage, ob die populären KI-Anwendungen mit ihren verwendeten Large Language Models (LLMs) diesen Anforderungen gerecht werden. In einer umfassenden Studie wurde das an der ETH Zürich nun untersucht, und am 10. Oktober 2024 veröffentlicht. Das Ergebnis ist ernüchternd;

“Finally, we applied our benchmarking suite to evaluate 12 popular LLMs, identifying that both current models and state-of-the-art benchmarks exhibit critical shortcomings in the context of the Act. In particular, none of the examined models are fully compliant with the requirements of the EU AI Act, and certain technical requirements cannot be currently assessed with the available set of tools and benchmarks, either due to a lack of understanding of relevant model aspects (e.g., explainability), or due to inadequacies in current benchmarks (e.g., privacy)” (Guldimann et al. (2024): COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act | PDF).

Ich bin sehr gespannt, was nun passiert, oder auch nicht passiert. Wird sich die EU mit ihren Anforderungen an KI-Anwendungen stärker durchsetzen, oder wird die Lobbyarbeit der verschiedenen Anbieter die Vorgaben mit der Zeit “aufweichen”. Möglicherweise gibt es auch einen dritten Weg: Open Source LLM erfüllt die Anforderungen und ist so leistungsfähig, wie die oftmals kommerziellen Angebote. Warum eigentlich nicht?

Jugaad: Eine indische Variante von Improvisation und Innovation

Image by Luca from Pixabay

Wir denken oft noch in den traditionellen Pfaden einer Welt, die sich allerdings turbulent wandelt. Traditionell gehen wir in vielen Bereichen unserer Gesellschaft davon aus, dass sich Infrastruktur, Energienetze, Kommunikationsnetze, Mobilitätsnetze, Soziale Netze usw. nur verwirklichen lassen, wenn die Politik und das ganz große Kapital solche Projekte umsetzen. Ein Beispiel auf globaler Ebene dafür ist die chinesische Belt and Road Initiative.

In Europa haben wir ähnliche Denkmuster (Top Down) entwickelt und verspielen möglicherweise die vielen Möglichkeiten von kleinen, persönlichen Verbesserungen und Innovationen (Bottom Up). Bezeichnend dafür ist, dass solche User Innovation gar nicht in den offiziellen Statistiken zu Innovationen auftauchen. Doch wie Eric von Hippel in vielen Studien aufgezeigt hat, gibt es diese Art von Verbesserungen und Innovationen in der Realität, im wirklichen Leben der Menschen. Siehe dazu beispielweise Eric von Hippel (2017): Free Innovation und Worin unterscheiden sich Business Innovation (formale Innovation) von Household Innovation (informelle Innovation)?

In einem anderen Kulturkreis, in Indien, wird die Improvisation im Alltäglichen als Jugaad bezeichnet. Dazu habe ich in einem aktuellen Artikel folgendes gefunden:

“Kaur (2016) informs that jugaad, a Punjabi word, popular across northern India, is a variation of the Hindi word jugat, itself derived from Sanskrit yukti, with roots in yog meaning union or joint. (…)

Jugaad is not limited to engagement of material infrastructure. It sits within the realm of the socio-cultural, with jugaadu people (improvisers) drawing on social, cultural, political and material resources to bend and twist unfavourable alignments into somewhat favourable ones. In many ways then, jugaad epitomises infrastructure: the subterranean, in the background and under the radar. (…)

Prabhu and Jain (2015), using several Indian examples like solar lighting solutions argue that jugaad leads to frugal, flexible and inclusive elements in ‘innovations’. They translate jugaad as frugal innovation. Radjou et al. (2012) frame this as jugaad Innovation.

Within the idea of jugaad, ‘formality/informality and legality/illegality work together’ (Narayanan, 2019, p. 13).”

Kumar, A. (2024): Jugaad Infrastructure: Minor infrastructure and the messy aesthetics of everyday life.

Der Autor verweist darauf, dass der Begriff “Jugaad Innovation” eher aus den einschlägigen Business Schools stammt, und wohl eher nicht den Kern von Jugaad im kulturellen Kontext beschreibt. Das ist deshalb interessant, da in den Erläuterungen zu Jugaad auf Wikipedia gerade der Bezug zu frugalen Innovationen und zu einer Art Managementtechnik hergestellt wird. Trifft der Wkipedia-Artikel hier möglicherweise nicht den Kern von Jugaad?

Dennoch kann ich mir vorstellen, dass aus Improvisation auch Innovationen entstehen können. Wichtig ist für beide, den Wert (Added Value) für den Nutzer in den Mittelpunkt zu stellen. Was wäre, wenn alle Menschen ihre alltäglichen (intelligenten) Problemlösungen anderen Menschen kostenfrei zur Verfügung stellen würden? Über die vielen Open-Source – und Open-Content – Initiativen wird das ja durchaus schon gemacht.

Künstliche Intelligenz kann jetzt darüber hinaus auch Treiber für Open User Innovation sein. Siehe dazu auch Frugale, soziale, technische und nicht-technische Innovationen und Frugale Innovationen: Ergebnisse einer europäischen Studie.

4.000 Blogbeiträge seit dem 20.07.2006

Als wir am 20.07.2006 mit dem ersten Blogbeitrag begonnen haben, war sofort das Ziel, Wissen mit anderen zu teilen. Wir haben uns damals schon direkt für die Open Source App WORDPRESS entschiedenen, mit der wir sehr gute Erfahrungen gemacht haben.

Einige unserer Kollegen und Partner waren skeptisch, denn es ist ja in der Gesellschaft oft üblich, Wissen zurückzuhalten und (kostenfrei) auf das Wissen anderer zurückzugreifen – ohne Quellen anzugeben.

Uns war es daher von vornherein wichtig, dass alle genutzten Informationen mit Quellen versehen sind, und wir ohne Werbebanner arbeiten. Diese Prinzipien haben wir über die Jahre konsequent umgesetzt. Selbstverständlich teilen wir auch Beiträge zielgruppenspezifisch in LinkedIn, X (Twitter) und Facebook.

Blogbeitrag 4.000 am 04.10.2024.

Wir können behaupten, dass es sich lohnt, Wissen zu teilen: In den Jahren von 2006 bis heute können wir einen deutlichen Anstieg bei den Seitenaufrufen und bei der Anzahl der Benutzer verzeichnen. Auch können wir sehen, dass die Benutzer durchschnittlich mehr Seiten aufrufen.

Das freut uns natürlich sehr und motiviert, weitere Blogbeiträge zu verschiedenen Themen zu schreiben. Schauen Sie sich doch einmal um! Ganz im Sinne unserer Marke:

Projektmanagement: OpenProject Update auf Version 14.2.1

Im Projektmanagement geht es natürlich auch um die Frage, welche Tools zur besseren Kollaboration in einem Projekt, bei mehreren Projekten (Programme/Portfolios), und für verschiedene Vorgehensmodelle – wie klassisches Projektmanagement, Agiles Projektmanagement und Hybrides Projektmanagement – geeignet ist.

Es wird hier schon deutlich, dass es nicht ein Tool für die ganzen Anforderungen gibt, sondern dass es verschiedene Tools sein müssen, die im Zusammenspiel eine projektorientierte Kollaborationsplattform ergeben.

Wie Sie als Leser unseres blog wissen, setzen wir auf das Konzept des Souveränen Arbeitsplatzes (Sovereign Workplace), der auf frei verfügbarer Open Source Software beruht, und bei dem die generierten daten alle auf dem eigenen Server bleiben.

Einen Anwendung in diesem Gesamtkonzept ist OPENPROJECT, das die genannten Anforderungen alle erfüllt, und mit anderen Open Source Anwendungen (wie z.B. NEXTCLOUD) über Schnittstellen recht einfach verbunden werden kann. In unserem blog haben wir dazu verschiedene Beiträge eingestellt die zeigen, wie vielfältig OPENPROJECT auch für verschiedene Vorgehensmodelle eingesetzt werden kann.

Selbstverständlich wird auch OPENPROJECT immer wieder upgedated – so auch jetzt wieder. Aktuell haben wir die Version 14.2.1, das am 02.07.2024 veröffentlicht wurde.

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen, Projektmanager/in (IHK) und Projektmanager/in Agil (IHK), die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.

Top 100 Tools for Learning 2024

Quelle: Tools for Learning

Es ist nicht verwunderlich, dass immer mehr KI-Anwendungen in der Liste der 100 Tools for Learning auftauchen. ChatGPT ist vom 4. auf den 2. Platz vorgerückt und weitere KI-Copilots tauchen in der Liste auf, bzw. rücken auch in den Platzierung vor. Es sieht so aus, als ob immer mehr KI-Anwendungen für Lernprozesse genutzt werden.

Es ist daher für viele an der Zeit, sich mit den Möglichkeiten und Beschränkungen von KI-Anwendungen bei Lernprozessen zu befassen. Am besten geht das in Unternehmen natürlich im Prozess der Arbeit: Kompetenzentwicklung im Prozess der Arbeit.

Erwähnen möchte ich hier, dass mir in der Liste Open-Source-KI-Anwendungen fehlen oder zu kurz kommen. Viele der KI-Anwendungen sind von Microsoft und Google dominiert, auch wenn z.B. ChatGPT von OpenAI ist und suggeriert, dass die Anwendung “Open” ist. Siehe dazu Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co. und Künstliche Intelligenz: Vorteile von Open Source Modellen.

Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co.

OpenAI ist mit ChatGPT etc. inzwischen weltweit erfolgreich am Markt. Angefangen hat das damalige Start-up mit der Idee, Künstliche Intelligenz (AI) als Anwendung offen, und damit frei verfügbar und transparent anzubieten. – ganz im Sinne der Open Source Idee.

Durch den Einstieg von Microsoft ist der Name OpenAI zwar geblieben, doch sind die Angebote in der Zwischenzeit eher als geschlossenes, intransparentes System einzuordnen, mit dem die Inhaber (Shareholder) exorbitante Gewinne erzielen möchten.

Dieser Problematik hat sich eine Personengruppe angenommen, und eine erste Definition für Open Source AI erarbeitet, anhand der die aktuellen KI-Apps bewertet werden können: In dem Artikel MIT Technology Review (2024): We finally have a definition for open-source AI (Massachusetts Institut of Technology, 22.08.224) findet sich dazu folgendes:

“According to the group, an open-source AI system can be used for any purpose without securing permission, and researchers should be able to inspect its components and study how the system works.

It should also be possible to modify the system for any purpose—including to change its output—and to share it with others to usewith or without modificationsfor any purpose. In addition, the standard attempts to define a level of transparency for a given model’s training data, source code, and weights.”

Die Intransparenz der Trainingsdaten bei den eher geschlossenen KI-Systemen von OpenAI, Meta und Google führt aktuell dazu, dass sich diese Unternehmen mit sehr vielen Klagen und Rechtstreitigkeiten auseinandersetzen müssen.

Die Open Source Initiative (OSI) plant, eine Art Mechanismus zu entwickeln, der bei den jeweiligen KI-Anwendungen anzeigt, ob es sich wirklich um Open Source KI-Anwendungen handelt

Interessant ist, dass dieser Gedanke bei Nextcloud mit seinem Ethical AI Ansatz schon vorweggenommen wurde.