Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

“Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer” (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!

Hybride Intelligenz: Zusammenspiel von Mensch, Maschine und Künstlicher Intelligenz

Wenn es um zu lösende Probleme in einem beruflichen Umfeld geht, so gibt es dabei sehr viele einzelne Aufgaben, die im Zusammenspiel von Menschen, Maschinen und Künstlicher Intelligenz gelöst werden können. Welche “Konfiguration” dabei angemessen erscheint, ist Abhängig vom Kontext, dem Task (Aufgabe) und den vorhandenen Problemlösungspotentialen. An dieser Stelle kommt der Begriff Hybride Intelligenz ins Spiel.

“Dellermann, Ebel, Söllner und Leimeister (2019: 638) definieren hybride Intelligenz als die Fähigkeit, komplexe Ziele durch die Kombination menschlicher und künstlicher Intelligenz zu erreichen, kontinuierlich voneinander zu lernen und dabei Ergebnisse zu produzieren, die über das hinaus gehen, was KI oder Mensch allein hätten erreichen können. Nicht immer lässt sich hierbei trennscharf zwischen Automation und Augmentation unterscheiden (Raisch & Krakowski, 2021). Der Grad der Automation bzw. Augmentation hängt immer individuell von der jeweiligen zu lösenden Aufgabe ab” (Piller et al. 2024, in Koller et al. 2024: Die Zukunft der Grenzenlosen Unternehmung).

Was allerdings unter “Menschlicher Intelligenz” verstanden wird, ist dabei nicht weiter erläutert. Ich gehe daher davon aus, dass von dem bekannten Intelligenzquotienten (IQ) ausgegangen wird, der sich in einer Zahl manifestiert. Dass das im Zusammenhang mit den Entwicklungen bei der Künstlichen Intelligenz kritisch sein kann, wird in dem Blogbeitrag OpenAI Model “o1” hat einen IQ von 120 – ein Kategorienfehler? deutlich.

Wenn wir weiterhin beachten, dass auch der Intelligenz-Begriff erweitert werden sollte, können wir möglicherweise auch von einer Multiplen Künstlichen Intelligenz sprechen. Siehe dazu auch Multiple Artificial Intelligences (MAI) statt Artificial General Intelligence (AGI)?

Nextcloud: Welche KI für welche Aufgabe?

Eigener Screenshot

In unserer Nextcloud (Hub 9) gibt es einen Nexcloud-Assistenten in dem verschiedene Aufgaben ausgewählt werden können (Siehe Abbildung). Weiterhin ist es möglich, zu jeder der genannten Anwendungen die geeignete KI (Künstliche Intelligenz) zu hinterlegen.

In der folgenden Abbildung ist zu sehen, dass für die Aufgaben “Free text to text prompt” und “Extract topics” z.B. OpenAI hinterlegt ist. Das Rollfeld zeigt, dass auch andere KI-Anwendungen ausgewählt werden können. Unser Ziel ist es in Zukunft mit leitungsfähigen Open Source KI-Anwendungen wie z.B. Common Corpus zu arbeiten. Siehe dazu auch Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht.

Eigener Screenshot

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht

Quelle: Link

In verschiedenen Blogbeiträgen hatte ich schon erwähnt, dass die aktuell noch dominierenden Trainingsdatenbanken (LLM: Large Language Models) der kommerziellen Anbieter wie OpenAI mit ChatGPT usw. wenig transparent sind. Diese Intransparenz, gepaart mit den immer lauter geäußerten Urheberverletzungen, und den immer deutlicher werdenden wirtschaftlichen Interessen der Tech-Giganten, lässt immer mehr Organisationen bei der Nutzung von Artificial Intelligence (A): künstlicher Intelligenz) nachdenklich werden. Um es hier noch einmal klarzustellen: OpenAI ist keine Open Source AI! Siehe dazu beispielsweise Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht.

In der Zwischenzeit gibt es viele spezielle Trainingsdatenbanken, die transparent und auch in ihren Datenvolumina kompakter sind. Was bisher noch fehlte war ein LLM, das auf der Basis der vorhandenen offenen Systeme wie Open Governement, Open Web, Open Science, Open Culture und Open Source Trainingsdaten bereit stellt, die neben Transparenz und freier Nutzbarkeit auch die immer wichtiger werdenden Urheberrechte berücksichtigt. In der Zwischenzeit gibt es Common Corpus: “Truly Open: contains only data that is permissively licensed”.

In dem Beitrag Langlait et al (2024): Releasing the largest multilingual open pretraining dataset vom 14.11.2024 auf Huggingface wird das Konzept und das Alleinstellungsmerkmal von Common Corpus als Teil der AI Alliance Open Trusted Data Initiative vorgestellt.

“Many have claimed that training large language models requires copyrighted data, making truly open AI development impossible. Today, Pleias is proving otherwise with the release of Common Corpus (part of the AI Alliance Open Trusted Data Initiative)—the largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information (2,003,039,184,047 tokens)” (Source).

Die immer wieder von den Tech-Giganten vorgebrachte Meinung, dass eine gute Trainingsdatenbank nicht ohne urheberrechtlich geschützte Daten auskommt, ist also falsch und soll wohl eher das eigene Geschäftsmodell schützen. Es ist beeindruckend zu sehen, wie dynamisch sich Open Source AI für viele Organisationen zu einer durchaus interessanten Alternative zu den etablierten AI-Systemen entwickelt.

Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht

In dem Beitrag Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co. hatte ich schon im August 2024 darauf hingewiesen, dass die Open Source Initiative (OSI) an einer Definition arbeitet die klärt, was unter Open Source AI zu verstehen ist.

Das ist deshalb besonders wichtig, da beispielsweise OpenAI sich eher zu einem von Microsoft dominierten Geschäftsmodell entwickelt. Auch LLama von Meta ist nicht wirklich Open Source, da einige wichtige Kriterien von Open Source AI nicht erfüllt sind. Meta verwendet dennoch in seinen Marketingaktivitäten bewusst den Begriff “Open Source” – hony soit qui mal y pense. Die am 21.10.2024 veröffentlichte Version von Open Source AI ist ein Release Candidate 2 (RC2):

An Open Source AI is an AI system made available under terms and in a way that grant the freedoms to:

Use the system for any purpose and without having to ask for permission.
Study how the system works and inspect its components.
Modify the system for any purpose, including to change its output.
Share the system for others to use with or without modifications, for any purpose.

These freedoms apply both to a fully functional system and to discrete elements of a system. A precondition to exercising these freedoms is to have access to the preferred form to make modifications to the system (Quelle).

Alle Large Language Models (LLM), die für Anwendungen der Künstlichen Intelligenz (Artificial Intelligence) genutzt werden, sollten also diesen Anforderungen genügen. Alleine der erste Eindruck zeigt schon, dass dies bei den meisten LLM nicht der Fall ist. Es wird Zeit, dass sich die aktuellen Anbieter nicht mehr mit dem Attribut “Open Source” schmücken können.

Aktuelle Studie der ETH Zürich: Kein populäres LLM entspricht den EU AI Act – Anforderungen

Künstliche Intelligenz mit seinen vielfältigen Möglichkeiten wird immer populärer. Die Europäische Union hat daher schon 2023 versucht, die Entwicklung so zu regulieren, dass einerseits (persönliche und organisationale) Rechte garantiert bleiben und anderseits, die Entwicklung von Innovationen nicht unnötig gebremst wird. Siehe dazu ausführlicher: EU AI Act: first regulation on artificial intelligence.

Natürlich stellt sich dabei sofort die Frage, ob die populären KI-Anwendungen mit ihren verwendeten Large Language Models (LLMs) diesen Anforderungen gerecht werden. In einer umfassenden Studie wurde das an der ETH Zürich nun untersucht, und am 10. Oktober 2024 veröffentlicht. Das Ergebnis ist ernüchternd;

“Finally, we applied our benchmarking suite to evaluate 12 popular LLMs, identifying that both current models and state-of-the-art benchmarks exhibit critical shortcomings in the context of the Act. In particular, none of the examined models are fully compliant with the requirements of the EU AI Act, and certain technical requirements cannot be currently assessed with the available set of tools and benchmarks, either due to a lack of understanding of relevant model aspects (e.g., explainability), or due to inadequacies in current benchmarks (e.g., privacy)” (Guldimann et al. (2024): COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act | PDF).

Ich bin sehr gespannt, was nun passiert, oder auch nicht passiert. Wird sich die EU mit ihren Anforderungen an KI-Anwendungen stärker durchsetzen, oder wird die Lobbyarbeit der verschiedenen Anbieter die Vorgaben mit der Zeit “aufweichen”. Möglicherweise gibt es auch einen dritten Weg: Open Source LLM erfüllt die Anforderungen und ist so leistungsfähig, wie die oftmals kommerziellen Angebote. Warum eigentlich nicht?

Fraunhofer Magazin 3/2024: Immer wieder spannend

Das Fraunhofer Magazin ist immer interessant und spannend, da es viele aktuelle und innovative Themen darstellt. Gerade der Anwendungsbezug ist beim Fraunhofer Institut ein besonderer Schwerpunkt. Besonders gefallen hat mir im Fraunhofer Magazin 3-24 (PDF) diesmal der Hinweis auf Aikido, einer KI-gestützten App zu Optimierung von Verwaltungsprozessen.

“Die Wissenschaftlerinnen und Wissenschaftler haben die Service-Plattform Aikido entwickelt: eine KI-basierte Software, die Geschäftsdokumente wie Briefe und Rechnungen binnen weniger Sekunden analysiert, wichtige Informationen extrahiert und anschließend strukturiert. Auch wesentlich komplexere Dokumente wie etwa Gesetzestexte, medizinische Fachartikel oder Gutachten von Versicherungen sind für Aikido kein Problem” (ebd. S. 6).

Halten Sie sich auch auf dem Laufenden und abonnieren Sie das Fraunhofer Magazin. Die Gegenwart und die Zukunft sind spannend.

Künstliche Intelligenz: Warum sollten Forscher besser offene Large Language Models (LLM) nutzen?

Usage of large language models (LLMs) in behavioral and social sciences research (Wulff/Hussain/Mata 2024). Die Hervorhebung in Rot ist von mir (Robert Freund) ergänzt worden.

Natürlich verwenden immer mehr Wissenschaftler Künstlichen Intelligenz in ihrer Arbeit. Wie die Grafik zeigt, wird ChatGPT beispielsweise in den Verhaltens- und Sozialwissenschaften sehr stark genutzt. ChatGPT ist allerdings von OpenAI, dessen Large Language Model (LLM) als eher geschlossenes System (Closed LLM) bezeichnet werden kann, da das zugrundeliegende Datenmodell nicht transparent ist. Andere LLM – wie z.B. LLama – sind eher offen LLM (Open LLM), die gerade für Forschung und Wissenschaft geeigneter erscheinen.

In dem aktuellen Paper Wulff/Hussain/Mata (2024): The Behavioral and Social Sciences Need Open LLMs (PDF) argumentieren die Autoren dazu wie folgt:

Academic research should prefer open LLMs because they offer several practical and ethical advantages that are essential for scientific progress.

First, open models provide the transparency necessary for thorough scrutiny, allowing researchers to understand better the tools they are using and ensuring accountability.

Second, this transparency, combined with the adaptability of open models, facilitates innovation by enabling researchers to customize models to meet specific needs and explore new applications (Wulff & Mata, 2024).

Third, open LLMs support reproducibility, a cornerstone of scientific research, by allowing other researchers to replicate and build upon existing work.

Finally, the ethical implications of AI usage are better managed with open models, as they enable greater scrutiny of AI decisions, arguably reduce the risks of deploying biased or unethical systems, and avoid giving away data to further train closed, proprietary models.”

Ich frage mich an dieser Stelle, ob solche Hinweise nicht auch für die Nutzung von Künstlicher Intelligenz in Unternehmen gelten sollten.

Siehe dazu auch Künstliche Intelligenz: Vorteile von Open-Source-Modellen

Top 100 Tools for Learning 2024

Quelle: Tools for Learning

Es ist nicht verwunderlich, dass immer mehr KI-Anwendungen in der Liste der 100 Tools for Learning auftauchen. ChatGPT ist vom 4. auf den 2. Platz vorgerückt und weitere KI-Copilots tauchen in der Liste auf, bzw. rücken auch in den Platzierung vor. Es sieht so aus, als ob immer mehr KI-Anwendungen für Lernprozesse genutzt werden.

Es ist daher für viele an der Zeit, sich mit den Möglichkeiten und Beschränkungen von KI-Anwendungen bei Lernprozessen zu befassen. Am besten geht das in Unternehmen natürlich im Prozess der Arbeit: Kompetenzentwicklung im Prozess der Arbeit.

Erwähnen möchte ich hier, dass mir in der Liste Open-Source-KI-Anwendungen fehlen oder zu kurz kommen. Viele der KI-Anwendungen sind von Microsoft und Google dominiert, auch wenn z.B. ChatGPT von OpenAI ist und suggeriert, dass die Anwendung “Open” ist. Siehe dazu Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co. und Künstliche Intelligenz: Vorteile von Open Source Modellen.

Vermindert der Einsatz Künstlicher Intelligenz menschliche Fähigkeiten?

Wenn wir ein Navigationssystem nutzen hilft uns das, schnell und bequem unser Ziel zu erreichen. Andererseits vermindert sich dadurch auch die menschliche Fähigkeit, sich zu orientieren. Die Nutzung eines Autos hilft uns, große Strecken zurückzulegen, doch vermindert es auch unsere körperlichen Fähigkeiten. Die Nutzung eines Computers erleichtert uns die Bearbeitung von Zahlenkolonnen, doch reduziert es auch unsere Rechen-Fähigkeiten. Die Nutzung von Suchmaschinen wie Google hat es uns erleichtert, Daten und Informationen schnell zu finden. Manche Fähigkeiten der Recherche und des Prüfens von Daten und Informationen bleiben hier manchmal wegen den schnellen Zyklen der Veränderungen auf der Strecke.

Warum sollten diese Effekte also bei der Nutzung von Künstlicher Intelligenz anders sein?

“Eine grundlegende Erkenntnis besagt, dass jedes technische Hilfsmittel die Fähigkeiten der Kombination «Mensch-Tool» zwar erhöht, jene des Menschen alleine aber potenziell vermindert (every augmentation is also an amputation, frei nach Marshall McLuhan)” (Digital Society Initiative 2023)

Im Kontext der universitären Bildung haben Forscher ermittelt, welche menschlichen Fähigkeiten in Zukunft in einem von KI dominierten Umfeld erhalten und gestärkt werden sollten (vgl. Digital Society Initiative 2023):

Grundlegende technische Fähigkeiten in Bezug auf KI-Technologien.

Sozialisationsfähigkeiten: Soziales Lernen, Einfühlungsvermögen, Resilienz und effektives
Teamwork gefördert werden. Dies bedingt auch ein Verständnis und eine Reflexion über ethische Werte und wissenschaftlichen Ethos.

Kritisches Denken: Kritische Diskurs, das Denken in Modellen und Abstraktionen sowie die Fähigkeit zur multiperspektivischen Kognition und Analyse.

Handeln unter Unsicherheit: Um mit der Geschwindigkeit des technischen Fortschritts (und auch den bekannten globalen Herausforderungen wie z.B. dem Klimawandel) umgehen zu können, sind Fähigkeiten zu fördern, welche das Handeln unter Unsicherheit erleichtern. Unter anderem zu nennen ist hier eine Schulung der Intuition und abstraktes Problemlösen.

Anmerken muss ich an dieser Stelle, dass persönliche Fähigkeiten nicht mit Persönlichkeitseigenschaften gleich gesetzt werden sollten. Siehe dazu auch Über den Umgang mit Ungewissheit. Es geht hier darum, dass gerade der Mensch als soziales und emotionales Wesen komplexe Problemlösungssituationen besser bewältigen kann, als es Technologie vermag. Wie ein Idealszenario der Arbeitsteilung zwischen menschlicher und künstlicher Intelligenz aussehen kann, lesen Sie in diesem Blogbeitrag.