Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

“Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer” (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!

Open Source Software (OSS)? Warum das denn?

Viele nutzen schon Software, die frei verfügbar ist, und als Open Source Software einen Siegeszug sonder gleichen angetreten hat. Dabei stellen sich vielfältige Fragen: Warum arbeiten Menschen an Open Source Projekten, ohne dafür eine monetäre Entlohnung zu erhalten? Wie kann ich als Einzelner Open Source Programme nutzen? Welche Möglichkeiten haben auch Unternehmen/Organisationen, Open Source Software zu nutzen? Welche rechtlichen Fragen stellen sich? … und natürlich: Wie kann jemand mit Open Source Software auch noch Geld verdienen?

Emma Romano hat mich am 11.05.2020 per Mail auf den Beitrag Understanding Open Source Software, and How It Makes You Money Online hingewiesen, der von Ezequiel Bruni am 17.05.2020 veröffentlicht wurde. Darin beschreibt er sehr anschaulich die Entwicklung und die Hintergründe von Open Source Software. Was wichtig ist: You Own Your Data!

Wir nutzen beispielsweise mit Moodle als Lern-Management-System, BigBlueButton Videokonferenzsystem (Plug-in in Moodle) und WordPress für unseren Blog gleich drei bekannte Open Source Programme. Diese Programme zu installieren, anzupassen und für die verschiedenen Zwecke zu nutzen ist manchmal einfach, und manchmal aufwändig. In solchen Fällen gibt es natürlich auch frei verfügbare Foren, in denen man Hilfe bekommt, doch ist es manchmal auch ratsam eine professionelle Hilfe zu nutzen. Gerade an dieser Stelle gibt es viele Chancen, sich auf dem Markt zu positionieren.

Wir werden häufig darauf angesprochen, wie wir Moodle oder auch WordPress nutzen. Aktuell erhalten wir Anfragen, wie BigBlueButton in Moodle integriert und genutzt werden kann, usw, usw. Das sind nur einige Beispiele dafür, dass es sich lohnt, Open Source Software zu nutzen und sein Wissen weiterzugeben.

Ist Daten sammeln der Heilsbringer für Organisationen?

cloudDaten sammeln und zu strukturieren ist der aktuelle Trend: Data, Big Data, Cloud, Cognitive Computing etc. Es ist bestimmt gut, wenn Daten dazu führen, komplexe Probleme für Unternehmen oder für die Gesellschaft zu lösen. Andererseits wird suggeriert: Je mehr Daten umso besser. Das ist natürlich Unsinn, denn es kommt darauf an, die richtigen Daten und dann wiederum die entsprechenden Informationen – das entsprechende Wissen usw. – zu generieren. In dem Beitrag Big Data, Big Confusion, Big Distance (Capital vom 08.01.2015) wird bezweifelt, dass mehr Daten auch eine bessere Kundennähe ergeben. Nicht zwangsläufig, dennoch können bessere Daten durchaus für bestimmte Problemkategorien nützlich sein. In meinem Vortrag auf der MCPC 2015 in Montréal habe ich aufgezeigt, an welchen Stellen letztendlich Cognitive Computing an seine Grenzen stößt. Es geht in der heutigen Zeit also nicht um ein entweder-oder, sondern um das sowohl-als-auch. Solche Themen besprechen wir in dem von uns entwickelten Blended Learning Lehrgang Innovationsmanager (IHK). Informationen dazu finden Sie auf unserer Lernplattform.

Datenvisualisierung, Storytelling und Wissensmanagement

storyIn Zeiten von Big Data, Open Data, Open Knowledge usw. ist es interessant sich anzusehen, wie aus der Fülle von Daten Informationen – und last but not least – Wissen werden kann (Wissenstreppe). Neue Technologien ermöglichen es uns heute, Daten in Formen zu übertragen, die den Übergang zu Informationen und Wissen erleichtern können. Der Beitrag Storytelling with Data Visulization vom 27.01.2015 fasst die Entwicklung gut zusammen. Stellt man Daten in einen ersten Kontext ergeben sich Zusammenhänge, die als Story weitertransportiert werden können. Ein so verstandenes Storytelling, das auf neuen Möglichkeiten der Datenvisualisierung basiert, erweitert die Möglichkeiten des klassischen Storytellings, das als ein wichtiges Instrument des modernen Wissensmanagements gelten kann. In dem von uns entwickelten Blended Learning Lehrgang Wissensmanager/in (IHK), gehe ich auf diese Zusammenhänge ein. Weitere Informationen finden Sie auf unserer Moodle-Lernplattform.

Big Data einmal anders

big-data-2015Wir alle kennen die Hinweise auf Big Data, der großen – und immer größer werdenden – Datenmenge im Internet. Die Diskussion wird dabei von der IT-Sicht beherrscht: Es geht darum, die Daten auszuwerten – also Data Mining, Data Warehousing oder sogar Business Intelligence – zu betreiben. Es geht darum, das Geschäftsmodell einer Organisation datengetrieben auszulegen. Zusätzlich gibt es allerdings auch die gesellschaftliche Seite von Big Data. Diesem Blickwinkel wird im Verhältnis zur IT- und Business-Perspektive doch relativ wenig Raum gegeben. Es ist daher sehr erfreulich, dass sich die Bundeszentrale für politische Bildung (bpb) in ihrem Newsletter “Aus Politik und Zeitgeschehen” (APuZ aktuell) vom 09.03.2015 (65. Jahrgang, 11-12/2015) mit Big Data befasst. Die Beiträge sind unter bpb (Hrsg.) (2015): Big Data frei verfügbar.:

Evgeny Morozov „Ich habe doch nichts zu verbergen“
Christian Stöcker “Politikfeld Big Data”
Viktor Mayer-Schönberger “Zur Beschleunigung menschlicher Erkenntnis”
Rolf Kreibich “Von Big zu Smart – zu Sustainable?”
Peter Langkafel “Dr. Algorithmus? Big Data in der Medizin”
Yvonne Hofstetter “Big Data und die Macht des Marktes”

Informationen zu unseren Lehrgängen finden Sie auf unserer Lernplattform.

Studie: Big Data in deutschen Unternehmen

2014-big-data-bitkomDie Studie Bitkom (2014): Big Data in deutschen Unternehmen (PDF) zeigt auf, dass sich Unternehmen doch deutlich stärker mit dem Thema befassen. “Die Ergebnisse zeigen: Der Einsatz der Big Data-Technologie steht gerade an der Schwelle von einer Nischenanwendung zur Nutzung in der Breite.” Big Data hat – wie viele Entwicklungen – zwei Seiten. Die eine Seite befasst sich mit dem Schutz von Daten und den negativen Entwicklungen, mit großen Datenmengen unkontrolloiert umzugehen (NSA läßt grüßen). Die andere Seite zeigt die großen Möglichkeiten auf, die sich aus der Zurverfügungstellung großer Datenmengen nicht nur für große Unternehmen ergeben. Gerade kleine Start-ups können frei zugängliche große Datenmengen dazu nutzen, neue innovative Anwendungen zu entwickeln. Siehe dazu auch GovData.