Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

“Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer” (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!

Ein Reifegradmodell für Industrie 4.0

industrie-40-maturity-model

Alle reden von Industrie 4.0, doch ist vielen nicht klar, welche Schritte erforderlich sind. In der acatech-Studie Schuh et al. (2017): Industrie 4.0. Maturity Index. Die digitale Transformation von Unternehmen gestalten (PDF) wird das stufenförmige Vorgehen ausführlich dargestellt und erläutert (S. 15):

Unternehmen stehen heute vor der Aufgabe, die Voraussetzungen für Industrie 4.0 zu schaffen. Daher startet der Entwicklungspfad mit der Digitalisierung, die noch kein Bestandteil von Industrie 4.0 ist, aber durch Computerisierung und Konnektivität die Grundlagen schafft. Hierauf folgt in vier Stufen der Aufbau von Industrie 4.0-Fähigkeiten.

In dem von uns entwickelten Blended Learning Lehrgang Innovationsmanager (IHK) gehen wir auch darauf ein. Der nächste Lehrgang wird im November/Dezember bei der IHK Rhein-Neckar angeboten. Weitere Informationen zu unseren IHK-Zertifikatslehrgängen finden Sie auf unserer Lernplattform.