Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

“Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer” (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!

Digitale Souveränität: Europa, USA und China im Vergleich

Fratini, S., Hine, E., Novelli, C. et al. Digital Sovereignty: A Descriptive Analysis and a Critical Evaluation of Existing Models. DISO 3, 59 (2024). https://doi.org/10.1007/s44206-024-00146-7

Digitale Souveränität ist ein Begriff, der in den verschiedenen Regionen der Welt durchaus unterschiedlich interpretiert wird. In Deutschland hat beispielsweise das Bundesministerium des Innern den Begriff in einer Veröffentlichung zum Thema wie folgt beschrieben:

„Digitale Souveränität beschreibt die Fähigkeiten und Möglichkeiten von Individuen und Institutionen, ihre Rolle(n) in der digitalen Welt selbstständig, selbstbestimmt und sicher ausüben zu können“ (Bundesministerium des Inneren (2020): Digitale Souveränität).

In der Europäischen Union gibt es Initiativen, die den Sovereign Workplace mit Open Source Anwendungen propagieren, da die kommerziellen, marktgetriebenen Anwendungen (bis hin zur Künstlichen Intelligenz) durchaus kritisch gesehen werden. Der Grund dafür liegt u.a. auf der Argumentation, dass gute Trainingsdaten für Künstliche Intelligenz nur zu bekommen sind, wenn die Urheberrechte “nicht so genau” genommen werden. Common Corpus zeigt allerdings genau das Gegenteil.

In einem Paper haben nun Fratini et al. (2024) die verschiedenen Perspektiven auf die Digitale Souveränität von verschiedenen Ländern in einer Grafik positioniert, in der es die Pole Hard Regulation >< Soft Regulation bzw. Domestic State Control >< Geopolitical Competition gibt (siehe Abbildung). Wie zu erkennen ist, liegen die USA im marktorientierten Bereich und China eher im staats-dominierten Sektor.

Die Europäische Union favorisiert eher einen rechte-basierten Ansatz und versucht, dem mit verschiedenen Grundsatz-Veröffentlichungen, wie dem EU Artificial Intelligence Act, gerecht zu werden. Die Autoren weisen berechtigt darauf hin, dass es eine einheitliche europäische Positionierung zur Digitalen Souveränität bisher nicht gibt, da die nationalen Regelungen noch kein einheitliches Bild ergeben. Dennoch ist durchaus ein Trend zu erkennen.

Meines Erachtens ist der von der Europäischen Union eingeschlagene Weg richtig. Es zeigt sich gerade in der Nutzung von mehr Open Source Anwendungen, dass es eine lebenswertere Alternative zu den amerikanischen oder chinesischen Vorgehen gibt – gerade im Sinne einer menschenzentrierten Society 5.0.

Innovationen: EU- (und Deutsche) Unternehmen in der MidTech-Falle?

Mercedes Innovation

Wir in Deutschland, und auch in der Europäischen Union, rühmen uns für unsere Innovationsfähigkeit, doch hat dieses Bild in der letzten Zeit deutliche Risse bekommen. Wenn wir uns mit uns selbst (Vergleich der letzten Jahre), oder mit anderen Nationen in Europa vergleichen, sieht es mit der Innovationsfähigkeit ja noch recht gut aus.

Im Vergleich zu den USA oder China sind wir in Deutschland allerdings eher mittelmäßig, was die Innovationen betrifft, die zukünftig Potenzial für nachhaltiges Wachstum versprechen. In diesem Zusammenhang habe ich folgendes gefunden:

“Es birgt inhärente Risiken, Forschungs- und Entwicklungsanstrengungen auf inkrementelle Verbesserungen reifer Technologien wie in der Automobilindustrie zu fokussieren, da diese (nur noch) begrenztes Potenzial für nachhaltiges Wachstum bieten. (…) Wenn man der Überlegung folgt, dass die persistente Konzentration der EU-Unternehmen auf etablierte Technologie problematisch ist, kann man davon sprechen, dass Europa in einer Art »Midtech«-Falle steckt. Patentanmeldungen weisen auf den selben Trend hin” (ifo Schnelldienst 4 / 2024 | PDF).

Wie sieht es aus, wenn wir “Innovation” weltweit vergleichen?

Wie ich in unserem Blog schon an vielen Stellen erwähnt habe, ist die deutsche/europäische Sicht auf Innovation oft sehr selektiv. Wenn wir deutsche Innovationen mit vergleichbaren Werten aus der Vergangenheit vergleichen, gibt es auf der Ebene der Politik und auch auf der Ebene der Unternehmen nur Positives zu vermelden – was auch gemacht wird. Es vergeht kein Tag, in dem nicht darauf hingewiesen wird, wie innovativ Deutschland sei. Es ist eben alles relativ: Honi soit qui mal y pense.

Vergleichen wir das deutsche Innovationssystem international, sieht es allerdings anders aus. Das weltweite Ranking der Boston Consulting Group zeigt seit 2005 eine deutliche Entwicklung. Die innovativsten Unternehmen kommen – bei einer Ausnahme (Samsung, Südkorea) – aus den USA oder China – und Europa/Deutschland schaut staunend zu. Als exportabhängige Nation sind wir von der Zukunftsfähigkeit von Produkten und Dienstleistungen, aber auch von der Zukunftsfähigkeit der politischen und rechtlichen Strukturen abhängig. Diese Zukunftsfähigkeit scheint in den letzten Jahrzehnten verspielt worden zu sein.

Wo sind deutsche/europäische Unternehmen wie Apple, Alphabet/Google, Amazon, Microsoft, Samsung, Huawei, Alibaba, IBM, Sony, Facebook (Top 10)?

Software aus dem Silicon Valley und Hardware aus Shenzen – und wo bleibt Europa?

In dem Beitrag The Lean Hardware Startup: From Prototype To Production (Techchrunch, 16.11.2013) wird deutlich, dass hochwertige Software aus dem Silicon Valley (USA) kommt und hochwertige Hardware immer stärker aus Shenzen (China). Shenzen ist somit nicht mehr nur die verlängerte Werkbank westlicher Konzerne, sondern immer mehr eine High-Tech Region, die die neuen Produktionsmöglichkeiten nutzt. Es stellt sich mir die Frage, welche Rolle Europa/Deutschland hier spielt, bzw. in Zukunft spielen wird.