Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

“Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer” (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!

Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht

In dem Beitrag Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co. hatte ich schon im August 2024 darauf hingewiesen, dass die Open Source Initiative (OSI) an einer Definition arbeitet die klärt, was unter Open Source AI zu verstehen ist.

Das ist deshalb besonders wichtig, da beispielsweise OpenAI sich eher zu einem von Microsoft dominierten Geschäftsmodell entwickelt. Auch LLama von Meta ist nicht wirklich Open Source, da einige wichtige Kriterien von Open Source AI nicht erfüllt sind. Meta verwendet dennoch in seinen Marketingaktivitäten bewusst den Begriff “Open Source” – hony soit qui mal y pense. Die am 21.10.2024 veröffentlichte Version von Open Source AI ist ein Release Candidate 2 (RC2):

An Open Source AI is an AI system made available under terms and in a way that grant the freedoms to:

Use the system for any purpose and without having to ask for permission.
Study how the system works and inspect its components.
Modify the system for any purpose, including to change its output.
Share the system for others to use with or without modifications, for any purpose.

These freedoms apply both to a fully functional system and to discrete elements of a system. A precondition to exercising these freedoms is to have access to the preferred form to make modifications to the system (Quelle).

Alle Large Language Models (LLM), die für Anwendungen der Künstlichen Intelligenz (Artificial Intelligence) genutzt werden, sollten also diesen Anforderungen genügen. Alleine der erste Eindruck zeigt schon, dass dies bei den meisten LLM nicht der Fall ist. Es wird Zeit, dass sich die aktuellen Anbieter nicht mehr mit dem Attribut “Open Source” schmücken können.

Künstliche Intelligenz: Warum sollten Forscher besser offene Large Language Models (LLM) nutzen?

Usage of large language models (LLMs) in behavioral and social sciences research (Wulff/Hussain/Mata 2024). Die Hervorhebung in Rot ist von mir (Robert Freund) ergänzt worden.

Natürlich verwenden immer mehr Wissenschaftler Künstlichen Intelligenz in ihrer Arbeit. Wie die Grafik zeigt, wird ChatGPT beispielsweise in den Verhaltens- und Sozialwissenschaften sehr stark genutzt. ChatGPT ist allerdings von OpenAI, dessen Large Language Model (LLM) als eher geschlossenes System (Closed LLM) bezeichnet werden kann, da das zugrundeliegende Datenmodell nicht transparent ist. Andere LLM – wie z.B. LLama – sind eher offen LLM (Open LLM), die gerade für Forschung und Wissenschaft geeigneter erscheinen.

In dem aktuellen Paper Wulff/Hussain/Mata (2024): The Behavioral and Social Sciences Need Open LLMs (PDF) argumentieren die Autoren dazu wie folgt:

Academic research should prefer open LLMs because they offer several practical and ethical advantages that are essential for scientific progress.

First, open models provide the transparency necessary for thorough scrutiny, allowing researchers to understand better the tools they are using and ensuring accountability.

Second, this transparency, combined with the adaptability of open models, facilitates innovation by enabling researchers to customize models to meet specific needs and explore new applications (Wulff & Mata, 2024).

Third, open LLMs support reproducibility, a cornerstone of scientific research, by allowing other researchers to replicate and build upon existing work.

Finally, the ethical implications of AI usage are better managed with open models, as they enable greater scrutiny of AI decisions, arguably reduce the risks of deploying biased or unethical systems, and avoid giving away data to further train closed, proprietary models.”

Ich frage mich an dieser Stelle, ob solche Hinweise nicht auch für die Nutzung von Künstlicher Intelligenz in Unternehmen gelten sollten.

Siehe dazu auch Künstliche Intelligenz: Vorteile von Open-Source-Modellen

Top 100 Tools for Learning 2024

Quelle: Tools for Learning

Es ist nicht verwunderlich, dass immer mehr KI-Anwendungen in der Liste der 100 Tools for Learning auftauchen. ChatGPT ist vom 4. auf den 2. Platz vorgerückt und weitere KI-Copilots tauchen in der Liste auf, bzw. rücken auch in den Platzierung vor. Es sieht so aus, als ob immer mehr KI-Anwendungen für Lernprozesse genutzt werden.

Es ist daher für viele an der Zeit, sich mit den Möglichkeiten und Beschränkungen von KI-Anwendungen bei Lernprozessen zu befassen. Am besten geht das in Unternehmen natürlich im Prozess der Arbeit: Kompetenzentwicklung im Prozess der Arbeit.

Erwähnen möchte ich hier, dass mir in der Liste Open-Source-KI-Anwendungen fehlen oder zu kurz kommen. Viele der KI-Anwendungen sind von Microsoft und Google dominiert, auch wenn z.B. ChatGPT von OpenAI ist und suggeriert, dass die Anwendung “Open” ist. Siehe dazu Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co. und Künstliche Intelligenz: Vorteile von Open Source Modellen.

Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co.

OpenAI ist mit ChatGPT etc. inzwischen weltweit erfolgreich am Markt. Angefangen hat das damalige Start-up mit der Idee, Künstliche Intelligenz (AI) als Anwendung offen, und damit frei verfügbar und transparent anzubieten. – ganz im Sinne der Open Source Idee.

Durch den Einstieg von Microsoft ist der Name OpenAI zwar geblieben, doch sind die Angebote in der Zwischenzeit eher als geschlossenes, intransparentes System einzuordnen, mit dem die Inhaber (Shareholder) exorbitante Gewinne erzielen möchten.

Dieser Problematik hat sich eine Personengruppe angenommen, und eine erste Definition für Open Source AI erarbeitet, anhand der die aktuellen KI-Apps bewertet werden können: In dem Artikel MIT Technology Review (2024): We finally have a definition for open-source AI (Massachusetts Institut of Technology, 22.08.224) findet sich dazu folgendes:

“According to the group, an open-source AI system can be used for any purpose without securing permission, and researchers should be able to inspect its components and study how the system works.

It should also be possible to modify the system for any purpose—including to change its output—and to share it with others to usewith or without modificationsfor any purpose. In addition, the standard attempts to define a level of transparency for a given model’s training data, source code, and weights.”

Die Intransparenz der Trainingsdaten bei den eher geschlossenen KI-Systemen von OpenAI, Meta und Google führt aktuell dazu, dass sich diese Unternehmen mit sehr vielen Klagen und Rechtstreitigkeiten auseinandersetzen müssen.

Die Open Source Initiative (OSI) plant, eine Art Mechanismus zu entwickeln, der bei den jeweiligen KI-Anwendungen anzeigt, ob es sich wirklich um Open Source KI-Anwendungen handelt

Interessant ist, dass dieser Gedanke bei Nextcloud mit seinem Ethical AI Ansatz schon vorweggenommen wurde.

Künstliche Intelligenz: Vorteile von Open-Source-Modellen

Was als Open-Source begann, wird oft zu einem wirtschaftlich getriebenen Closed-Source-Modell. Das Beispiel OpenAI zeigt, wie das funktioniert. Zunächst war OpenAI Open-Source basiert und wurde dann unter dem Einfluss und dem Kapital von Microsoft Schritt für Schritt zu einem Closed-Source KI-System, das sich der Konzern gut bezahlen lässt. Es ist zu vermuten, dass dieser Weg auch von anderen Konzernen beschritten wird, sobald sich die Anwender an die zunächst freien Funktionen gewöhnt haben, wodurch sich deren Switching-Cost pro Anwender erhöhen. Diese Entwicklung wird allerdings in dem aktuellen EFI Gutachten (2024) kritisch gesehen, und hervorgehoben, welche Vorteile Open-Source KI-Modelle haben:

“Open-Source-Modelle können den Wettbewerb stärken und bieten mehr Innovationsmöglichkeiten als Closed-Source-Modelle, da sie in der Regel besser anpassbar sind. Zudem können Akteure aus Wissenschaft und Wirtschaft, insbesondere Startups und KMU, von den verhältnismäßig niedrigen Kosten der Open-Source-Nutzung profitieren und
vorhandene Open-Source-Modelle einsetzen, um domänenspezifisch zu innovieren und die Produktivität zu steigern. Dies erhöht den Wettbewerb und die Angebotsvielfalt und beugt somit Monopolisierungstendenzen vor. Darüber hinaus haben Open-Source-Modelle den Vorteil, dass Programmierfehler oder potenzielle Verzerrungen, die bei der Analyse von Daten entstehen, schneller identifiziert und behoben werden können. Dies ist der Transparenz und Zuverlässigkeit von KI-Modellen förderlich” (EFI Gutachten 2024:88).

Jede Organisation sollte sich genau überlegen, welche KI-Strategie geeignet ist, mittel- und langfristig die Chancen von KI-Modellen zu nutzen. Wir nutzen Open-Source-KI-Modelle in unserer Nextcloud und entwickeln dadurch eine KI-Strategie, die zu unseren Anforderungen passt. Wie weit wir Closed-Source KI-Modelle mit integrieren, entscheiden wir je nach Bedarf mit Hilfe des integrierten Ethical KI-Rankings.

Warum kann NEXTCLOUD zukünftig eine interessante Alternative zu ChatGPT (OpenAI) oder Bard (Google) sein?

Ja, es gibt ChatGPT von OpenAI, Bard von Google usw. usw. und ich muss sagen, dass die Ergebnisse z.B. von ChatGPT schon beeindruckend sind. Warum sollte man sich dennoch mit Alternatiuven befassen? Es ist relativ einfach, denn manche Unternehmen verbieten den Einsatz von diesen Systemen. Den Grund liefert die Google-Mutter Alphabet selbst: Bard: Google warnt Mitarbeiter vor der Nutzung des eigenen Chatbots. Hier ein Auszug:

Ausgerechnet die Google-Mutter Alphabet warnt seine Mitarbeiter vor der Nutzung generativer KI – inklusive des hauseigenen Chatbots Bard. Speziell Ingenieure sollten weder Code zur Fehleranalyse in trainierten Sprachmodelle eingeben, noch die ausgegebenen Zeilen nutzen. In einem am 1. Juni aktualisierten Datenschutzhinweis von Google heißt es Reuters zufolge: “Fügen Sie keine vertraulichen oder sensiblen Informationen in Ihre Bard-Konversationen ein”. (ebd.)

Die Entwicklungen von NEXTCLOUD könnten in diesem Zusammenhang interessant werden, da es auf Open-Source-Basis die in KI-Anwednungen generieten Daten in ihrer eigenen geschützten Cloud behält. Wie kann man sich das vorstellen? Wie Sie wissen, haben wir Nextcloud als Open-Source-Anwendung für Cloudanwendungen auf unseren Servern installiert. Dabei war bisher der Schwerpunkt auf der Weiterentwicklung zu einer integrierten Kollaborationsplattform auf Open-Source-Basis.

Seit Nextcloud Hub 4 gibt es die Möglichkeit, Apps zur Künstlicher Intelligenz (KI; AI: Articicial Intelligence) in Dateien aufzurufen. In dem Beispiel (Screenshot) haben wir eine Textdatei (TEXT.md) geöffnet, und mit dem Smart Picker (“/”) verschiedene KI-Anwendungen geöffnet. Eine davon basiert auf Stabe Diffusion und kann Bilder auf Basis einer Eingabe (Prompt) generieren. Beispielhaft haben wir in der vorgesehenen Zeile “Projektmanager in einer Teambesprechung” eingegeben. Das Ergebnis sehen Sie in dem Screenshot. Die generierten Daten und die Prompts bleiben alle auf unseren Servern. In einem der nächsten Blogbeiträge, werde ich eine weitere KI-Anwendung innerhalt von NEXTCLOUD vorstelen.

Ziel von Nextcloud ist es, in Zukunft immer mehr AI-Anwendungen integriert anzubieten, wobei die AI-Apps auch ethisch eingeordnet werden sollen. Basis dafür ist eine Ampelfunktion. Siehe dazu Nextcloud Hub 4 mit “ethical AI” Integration – Open Source.

Wir werden in der nächsten Zeit immer mehr AI-Apps in Nextcloud in Bezug zu unseren Themen wie z.B. Projektmanagement ausprobieren, und so wichtige Erfahrungen sammeln.

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen, Projektmanager/in (IHK) und Projektmanager/in Agil (IHK), die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.

GPT-4 Developer Livestream

Es ist schon unglaublich, welche Möglichkeiten sich durch OpenAI und speziell GPT-4 ergeben. Es kommt nun darauf an, diese Möglichkeiten sinnvoll einzusetzen. Wie alle technologischen Entwicklungen hat auch Künstliche Intelligenz (KI, oder AI) zwei Seiten: Vorteile und Nachteile. Diese Ambivalenz sollte immer bedacht werden, doch sollten nicht immer nur die Nachteile im Vordergrund stehen. Es liegt an uns, was wir daraus machen.

Siehe dazu auch Freund, R. (2016): Cognitive Computing and Managing Complexity in Open Innovation Model. Bellemare, J., Carrier, S., Piller, F. T. (Eds.): Managing Complexity. Proceedings of the 8th World Conference on Mass Customization, Personalization, and Co-Creation (MCPC 2015), Montreal, Canada, October 20th-22th, 2015, pp. 249-262 | Springer

OpenAI und DALL·E 2 selbst ausprobiert

Seit einiger Zeit habe ich mich bei OpenAI angemeldet und erste Texte generieren lassen. Darüber hinaus ist es möglich, sich mit den gleichen Zugangsdaten bei DALL·E 2 anzumelden, um über Texteingaben Bilder generieren zu lassen. Beides auszuprobieren macht Spaß und zeigt, welche Möglichkeiten diese technischen Entwicklungen in Zukunft bieten werden. In meiner Special Keynote auf der MCPC2015 in Montreal, hatte ich auf die vielfältigen Möglichkeiten von Cognitive Computing bei Innovationen hingewiesen. Das Paper wurde in den Konferenz-Proceedings dann 2016 bei Springer veröffentlicht.

Freund, R. (2016): Cognitive Computing and Managing Complexity in Open Innovation Model. Bellemare, J., Carrier, S., Piller, F. T. (Eds.): Managing Complexity. Proceedings of the 8th World Conference on Mass Customization, Personalization, and Co-Creation (MCPC 2015), Montreal, Canada, October 20th-22th, 2015, pp. 249-262 | Springer

Freund, R. (2016): Wie verändert Cognitive Computing die HR-Landschaft?. In: HR Performance 2/2016, S. 16-19 | Download