In Europa gibt es immer mehr länderspezifische LLM (Large Language Models) – wie z.B. AI Sweden

Screenshot von der Website AI Sweden

In dem Blogbeitrag Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data hatte ich schon erläutert, wie wichtig es ist, dass sich Organisationen und auch Privatpersonen nicht nur an den bekannten AI-Modellen der Tech-Giganten orientieren. Ein wichtiges Kriterien sind die dort oftmals hinterlegten Daten, die natürlich zum überwiegenden Teil in Englisch (oder Chinesisch) vorliegen.

In Europa haben wir gegenüber China und den USA in der Zwischenzeit ein eigenes Verständnis von der gesellschaftlichen Nutzung der Künstlichen Intelligenz entwickelt (Blogbeitrag). Dabei spielen die technologische Unabhängigkeit (Digitale Souveränität) und die europäische Kultur wichtige Rollen.

Die jeweiligen europäischen Kulturen drücken sich in den verschiedenen Sprachen aus, die dann auch möglichst Bestandteil der in den KI-Modellen genutzten Trainingsdatenbanken (LLM) sein sollten – damit meine ich nicht die Übersetzung von englischsprachigen Texten in die jeweilige Landessprache.

Ein Beispiel für so eine Entwicklung ist AI SWEDEN mit dem veröffentlichten GPT-SW3 (siehe Abbildung). Das LLM ist im Sinne der Open Source Philosophie (FOSS: Free Open Source Software) transparent und von jedem nutzbar – ohne Einschränkungen.

“GPT-SW3 is the first truly large-scale generative language model for the Swedish language. Based on the same technical principles as the much-discussed GPT-4, GPT-SW3 will help Swedish organizations build language applications never before possible” (Source).

Für schwedisch sprechende Organisationen – oder auch Privatpersonen – bieten sich hier Möglichkeiten, aus den hinterlegten schwedischen Trainingsdaten den kulturellen Kontext entsprechend Anwendungen zu entwickeln. Verfügbar ist das Modell bei Huggingface.

European alternatives for digital products

Screenshot: https://european-alternatives.eu/

Die aktuellen Entwicklungen zeigen unsere (europäische) digitale Abhängigkeit von amerikanischen Tech-Riesen. Ob es sich um Starlink, ein Unternehmen von Elon Musk, oder um OpenAI (dominiert von Microsoft), Amazon Cloud, Google usw. handelt, überall haben sich die amerikanischen Tech-Unternehmen in Europa durchgesetzt.

Immer mehr Privatpersonen, Unternehmen und Verwaltungen überlegen allerdings aktuell, ob es nicht besser ist, europäische Alternativen zu nutzen, um die genannte digitale Abhängigkeit zu reduzieren.

Die Website European alternatives for digital products hat nun angefangen, verschiedene europäische Alternativen zu den etablierten Angeboten aufzuzeigen. Die Übersicht ist nach verschiedenen Kategorien gegliedert. Die Website ist eine Initiative eines österreichischen Softwareentwicklers und steht erst am Anfang.

Insgesamt kann diese Website in die Initiative Sovereign Workplace eingeordnet werden, an dem wir uns auch schon länger orientieren. Dabei werden Vorschläge gemacht, welche Anwendungen auf Open Source Basis geeignet erscheinen.

Daten als Ressource: Um welche Kategorien von Daten geht es?

Wir sind uns alle einig, dass Daten eine bedeutende Ressource für einzelne Personen, Unternehmen, Organisationen und ganze Gesellschaften darstellen. Einerseits müssen Daten offen verfügbar sein, andererseits allerdings auch geschützt werden. Insofern macht es Sinn, verschiedene Kategorien für Daten zu unterscheiden:

Open data: data that is freely accessible, usable and shareable without restrictions, typically under an open license or in the Public Domain36 (for example, OpenStreetMap data);
Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed”
(Tarkowski, A. (2025): Data Governance in Open Source AI. Enabling Responsible and Systemic Access. In Partnership with the Open Source Initiative).

Es zeigt sich, dass es viele frei verfügbare Daten gibt, doch auch Daten, die geschützt werden sollten.

Die amerikanischen Tech-Konzerne möchten alle Daten für ihre Trainingsdatenbanken (LLM: Large Language Models) kostenlos nutzen können. Das Ziel ist hier, die maximale wirtschaftliche Nutzung im Sinne einiger weniger Großkonzerne. Dabei sind die Trainingsdaten der bekannten KI-Modelle wie ChatGPT etc. nicht bekannt/transparent. Die Strategie von Big-Tech scheint also zu sein,: Alle Daten “abgreifen” und seine eigenen Daten und Algorithmen zurückhalten. Ein interessantes Geschäftsmodell, dass sehr einseitig zu sein scheint.

Bei der chinesische Perspektive auf Daten liegt der Schwerpunkt darauf, mit Hilfe aller Daten politische Ziele der Einheitspartei zu erfüllen. Daran müssen sich alle Bürger und die Unternehmen – auch die KI-Unternehmen – halten.

In Europa versuchen wir einen hybriden Ansatz zu verfolgen. Einerseits möchten wir in Europa Daten frei zugänglich machen, um Innovationen zu fördern. Andererseits wollen wir allerdings auch, dass bestimmte Daten von Personen, Unternehmen, Organisationen und Öffentlichen Verwaltungen geschützt werden.

An dieser Stelle versucht die aktuelle amerikanische Regierung, Druck auf Europa auszuüben, damit Big-Tech problemlos an alle europäischen Daten kommen kann. Ob das noch eine amerikanische Regierung ist, oder nicht schon eine kommerziell ausgerichtete Administration wird sich noch zeigen. Das letzte Wort werden wohl die Gerichte in den USA haben.

Ich hoffe, dass wir in Europa unseren eigenen Weg finden, um offene Daten in großem Umfang verfügbar zu machen, und um gleichzeitig den Schutz sensibler Daten zu gewährleisten.

Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich.

Open LLMs for Transparent AI in Europe

Screenshot Open Euro LLM

Wie schon in dem Beitrag Digitale Souveränität: Europa, USA und China im Vergleich dargestellt, haben China, die USA und Europa unterschiedliche Herangehensweisen, mit Künstlicher Intelligenz umzugehen.

Es wundert daher nicht, dass sich die neue Regierung in den USA darüber beschwert, dass Europa die Entwicklung und Nutzung Künstlicher Intelligenz in Schranken regulieren will. Ich hoffe, Europa ist selbstbewusst genug, sich diesem rein marktwirtschaftlich ausgerichteten Vorgehen der USA zu widersetzen, ohne die Möglichkeiten einer Nutzung und Entwicklung von Künstlicher Intelligenz zu stark einzuschränken. Der Einsatz Künstlicher Intelligenz wird gravierende gesellschaftliche Veränderungen nach sich ziehen, sodass es auch erforderlich, gesellschaftlich auf diese Entwicklung zu antworten.

Neben China und den USA kann es Europa durchaus gelingen, beide Schwerpunkte (USA: Kapital getrieben, China: Politik getrieben) zur Nutzung von Künstliche Intelligenz in einem Hybriden Europäischen KI-Ansatz zu verbinden. Das wäre gesellschaftlich eine Innovation, die durchaus für andere Länder weltweit interessant sein könnte.

Open Euro LLM ist beispielsweise so eine Initiative, die durchaus vielversprechend ist. Wie in dem Screenshot zur Website zu erkennen ist, setzt man bei Open Euro LLM auf Offenheit und Transparenz, und auch auf europäische Sprachen in den Trainingsdatenbanken der Large Language Models (LLM). Beispielhaft soll hier der Hinweis auf Truly Open noch einmal herausgestellt werden:

Truly Open
including data, documentation, training and testing code, and evaluation metrics; including community involvement

In Zukunft wird es meines Erachtens sehr viele kleine, spezialisierte Trainingsdatenbanken (SLM: Small Language Models) geben, die kontextbezogen in AI-Agenten genutzt werden können. Wenn es um Kontext geht, muss auch die kulturelle Vielfalt Europas mit abgebildet werden. Dabei bieten sich europäische Trainingsdatenbanken an. Siehe dazu auch

CAIRNE: Non-Profit Organisation mit einer europäischen Perspektive auf Künstliche Intelligenz

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

AI Agents: Langflow (Open Source) auf unserem Server installiert

CAIRNE: Non-Profit Organisation mit einer europäischen Perspektive auf Künstliche Intelligenz

Screenshot von der Website https://cairne.eu/

Die viele Informationen zu Künstlicher Intelligenz (KI, AI: Artificial Intelligence) sollen in den meisten Fällen eine bestimmte Blickrichtung auf das Thema herausstellen. In dem Blogbeitrag Digitale Souveränität: Europa, USA und China im Vergleich werden beispielsweise die drei großen Perspektiven auf die digitale Souveränität dargestellt.

In Europa scheint es einen – im Vergleich zu den USA und China – etwas anderen Ansatz zu geben, der einerseits die Rechte einzelner Bürger und auch von Organisationen berücksichtigt, und nicht so sehr technologiezentriert, sondern human-centred ist. Die europäische Non-Profit Organisationen CAIRNE (Confederation of Laboratories for Artificial Intelligence Research in Europe) möchte mit ihrer Arbeit folgende Punkte erreichen:

> “bring widespread and significant benefits to citizens, industry and society, in the form of alignment with shared values and of the global competitiveness of our economies;
> make major contributions to solving the grand challenges of our time, notably climate change, health and inequality;
> bring into existence AI systems that satisfy the seven trustworthiness criteria defined by the European Union;
> bring critical technology and infrastructure under European democratic control”
CAIRNE and euROBOTICS (2023): Moonshot in Artificial Intelligence: Trustworthy, Multicultural Generative AI Systems for Safe Physical Interaction with the Real World | PDF.

Den oben erwähnten Human-Centered-Ansatz wird nicht nur in Europa immer stärker favorisiert. Auch Japan hat in seiner Vision Society 5.0 auf diesen Schwerpunkt bei der Entwicklung von KI-Systemen hingewiesen:

“By comparison, Society 5.0 is A human-centered society that balances economic advancement with the resolution of social problems by a system that highly integrates cyberspace and physical space” (Japan Cabinet Office, 2016, zitiert in Nielsen & Brix 2023).

Von der digitalen Abhängigkeit zur digitalen Souveränität

Quelle: Bitkom Pressemitteilung 2025

Seit Jahren und Jahrzehnten begeben wir uns in Deutschland in eine digitale Abhängigkeit, die für viele Menschen, Organisationen und die ganze Gesellschaft nicht gut ist.

Einzelne Personen merken immer mehr, wie digital abhängig sie von Facebook, X (ehemals Twitter), Instagram, WhatsApp, Twitch, TikTok usw. usw. sind. Ähnlich sieht es auch bei Unternehmen aus:

“90 Prozent der Unternehmen sind vom Import digitaler Technologien und Services aus anderen Ländern abhängig, insbesondere aus den USA und China” (Bitkom 2025).

Auch unsere Verwaltungsstrukturen haben sich an diese digitale Abhängigkeit begeben.

Durch diese Entwicklungen fällt es allen schwer, von dieser digitalen Abhängigkeit loszukommen. Ein Verhalten, das Abhängige grundsätzlich haben. Wie wir aus der Theorie der Pfadabhängigkeit wissen, kommt es im Aneignungsprozess z.B. digitaler Anwendungen zu einer Art Lock-in. Es fällt dann allen Beteiligten schwer, aus dem gewohnten Umfeld wieder herauszukommen.

Kann man nichts machen, oder? Doch! Auf europäischer Ebene gibt es seit längerem die Erkenntnis, dass wir in Europa wieder zu einer Digitalen Souveränität kommen müssen.

European Union (2020): Digital sovereignty for Europe (PDF).

Dazu gibt es in der Zwischenzeit viele konkrete Möglichkeiten. Siehe dazu

Sovereign Workplace: Der unabhängige Arbeitsplatz auf integrierter Open Source Basis.

Digitale Souveränität: Europa, USA und China im Vergleich.

Souveränitätsscore: Zoom und BigBlueButton im Vergleich.

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Buyl et al. (2024): Large Language Models Reflect the Ideology of their Creators

In dem Blogbeitrag Digitale Souveränität: Europa, USA und China im Vergleich wird deutlich gemacht, dass Europa, die USA und China unterschiedliche Ansätze bei dem Thema Digitale Souveränität haben. Diese grundsätzlichen Unterschiede zeigen sich auch in den vielen Large Language Models (Trainingsdatenbanken), die für KI-Anwendungen benötigt werden.

Es wundert daher nicht, dass in dem Paper Buyl et al. (2024): Large Language Models Reflect The Ideology of their Creators folgende Punkte hervorgehoben werden:

“The ideology of an LLM varies with the prompting language.”

In dem Paper geht es um die beiden Sprachen Englisch und Chinesisch für Prompts, bei denen sich bei den Ergebnissen Unterschiede gezeigt haben.

“An LLM’s ideology aligns with the region where it was created.”

Die Region spielt für die LLMs eine wichtige Rolle. China und die USA dominieren hier den Markt.

“Ideologies also vary between western LLMs.”

Doch auch bei den “westlichen LLMs” zeigen sich Unterschiede, die natürlich jeweils Einfluss auf die Ergebnisse haben, und somit auch manipulativ sein können.

Die Studie zeigt wieder einmal, dass es für einzelne Personen, Gruppen, Organisationen oder auch Gesellschaften in Europa wichtig ist, LLMs zu nutzen, die die europäischen Sprachen unterstützen, und deren Trainingsdaten frei zur Verfügung stehen. Das gibt es nicht? Doch das gibt es – siehe dazu

Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co.

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht.

Open Source: Nextcloud-Assistent und Künstliche Intelligenz (KI).

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

“Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer” (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!

Worin unterscheiden sich Industry 5.0 und Society 5.0?

Quelle: https://www8.cao.go.jp/cstp/english/society5_0/index.html (Abgerufen am 01.11.2024)

Wir haben uns an die verschiedenen Beschreibungen industriellen Fortschritts gewöhnt, indem wir beispielsweise von Industry 4.0, oder jetzt auch Industry 5.0 sprechen. Was ist darunter zu verstehen?

Industry 5.0 recognises the power of industry to achieve societal goals beyond jobs and growth to become a resilient provider of prosperity by making production respect the boundaries of our planet and placing the well-being of the industry worker at the centre of the production process” (Breque et al., 2021:14, zitiert in Nielsen & Brix 2023).

Es wird deutlich, dass hier ein menschenzentrierter Ansatz zu erkennen ist, der allerdings auf den Industriearbeiter fokussiert ist. Erweiternd hat sich ein Gedanke etabliert, der schon vor einigen Jahren in Japan mit dem Begriff Society 5.0 beschrieben wurde, und in der Zwischenzeit auch in Europa Beachtung findet.

“By comparison, Society 5.0 is “A human-centred society that balances economic advancement with the resolution of social problems by a system that highly integrates cyberspace and physical space” (Japan Cabinet Office, 2016, zitiert in Nielsen & Brix 2023).

Auch hier geht es um einen menschenzentrierten Ansatz, der allerdings nicht auf den Industriearbeiter begrenzt ist, sondern alle Bürger generell mitnehmen will. Dabei sollen die konkreten Probleme der Menschen (endlich) gelöst werden, wobei die neuen Technologien eine große Bedeutung haben. Innovationen müssen letztendlich in diesem Zusammenhang auf soziale und gesellschaftliche Innovationen erweitert werden.

Nielsen und Brix (2023) beschreiben diese Zusammenhänge ausführlich und stellen ein entsprechendes Modell vor, das im Raum Aalborg (Dänemark) auch schon erfolgreich umgesetzt wurde. Interessant dabei ist, dass beide Autoren vorschlagen, den Weg zu einer Society 5.0 nicht Top-Down – also nur von den politischen EU-Gremien aus -sondern von “unten” – also von den Bürgern aus – anzugehen. Daher nennen Nielsen und Brix dieses Vorgehensweise auch “bottom-up ‘society transition model’”.

Ich mag diesen Bottom-Up-Gedanken sehr, da es mit den Überlegungen von Eric von Hippel (Democratizing Innovation, Free Innovation) und den vielfältigen Open Source Initiativen zusammenpasst.

Künstliche Intelligenz: Vorteile von Open-Source-Modellen

Was als Open-Source begann, wird oft zu einem wirtschaftlich getriebenen Closed-Source-Modell. Das Beispiel OpenAI zeigt, wie das funktioniert. Zunächst war OpenAI Open-Source basiert und wurde dann unter dem Einfluss und dem Kapital von Microsoft Schritt für Schritt zu einem Closed-Source KI-System, das sich der Konzern gut bezahlen lässt. Es ist zu vermuten, dass dieser Weg auch von anderen Konzernen beschritten wird, sobald sich die Anwender an die zunächst freien Funktionen gewöhnt haben, wodurch sich deren Switching-Cost pro Anwender erhöhen. Diese Entwicklung wird allerdings in dem aktuellen EFI Gutachten (2024) kritisch gesehen, und hervorgehoben, welche Vorteile Open-Source KI-Modelle haben:

“Open-Source-Modelle können den Wettbewerb stärken und bieten mehr Innovationsmöglichkeiten als Closed-Source-Modelle, da sie in der Regel besser anpassbar sind. Zudem können Akteure aus Wissenschaft und Wirtschaft, insbesondere Startups und KMU, von den verhältnismäßig niedrigen Kosten der Open-Source-Nutzung profitieren und
vorhandene Open-Source-Modelle einsetzen, um domänenspezifisch zu innovieren und die Produktivität zu steigern. Dies erhöht den Wettbewerb und die Angebotsvielfalt und beugt somit Monopolisierungstendenzen vor. Darüber hinaus haben Open-Source-Modelle den Vorteil, dass Programmierfehler oder potenzielle Verzerrungen, die bei der Analyse von Daten entstehen, schneller identifiziert und behoben werden können. Dies ist der Transparenz und Zuverlässigkeit von KI-Modellen förderlich” (EFI Gutachten 2024:88).

Jede Organisation sollte sich genau überlegen, welche KI-Strategie geeignet ist, mittel- und langfristig die Chancen von KI-Modellen zu nutzen. Wir nutzen Open-Source-KI-Modelle in unserer Nextcloud und entwickeln dadurch eine KI-Strategie, die zu unseren Anforderungen passt. Wie weit wir Closed-Source KI-Modelle mit integrieren, entscheiden wir je nach Bedarf mit Hilfe des integrierten Ethical KI-Rankings.