Free Open Source Software (FOSS): Eigene LocalAI-Instanz mit ersten drei Modellen eingerichtet

Quelle: Eigener Screenshot

In verschiedenen Blogbeiträgen hatte ich darauf hingewiesen, dass es für Organisationen in Zukunft immer wichtiger wird, die digitale Abhängigkeiten von kommerziellen IT-/AI-Anbietern zu reduzieren – auch bei der Anwendung von Künstlicher Intelligenz (AI: Artificial Intelligence), da die Trainingsdatenbanken der verschiedenen Anbieter

(1) nicht transparent sind,
(2) es zu Urheberrechtsverletzungen kommen kann,
(3) und nicht klar ist, was mit den eigenen eingegeben Daten, z.B. über Prompts oder hochgeladenen Dateien, passiert.

Siehe dazu auch Digitale Souveränität: Europa, USA und China im Vergleich. Nicht zuletzt werden die Kosten für die KI-Nutzung immer höher – beispielsweise bei Microsoft und der Nutzung des KI-Assistenten Copilot: KI treibt Microsoft-365-Preise in die Höhe (golem vom 17.01.2025).

Es ist natürlich leicht, darüber zu schreiben und die Dinge anzuprangern, schwieriger ist es, Lösungen aufzuzeigen, die die oben genannten Punkte (1-3) umgehen. Zunächst einmal ist die Basis von einer Lösung Free Open Source Software (FOSS). Eine FOSS-Alternative zu OpenAI, Claude usw. haben wir auf einem Server installiert und die ersten drei Modelle installiert. Was bedeutet das?

Wenn wir in einem Chat einen Prompt (Text, Datei..) eingeben, greift das System auf das ausgewählte Modell (LLM: Large Language Model) zu, wobei die Daten (Eingabe, Verarbeitung, Ausgabe) alle auf unserem Server bleiben.

Wie in der Abbildung zu sehen ist, haben wir neben Llama 3.2 auch Teuken 7B hinterlegt. Gerade Teuken 7B basiert auf einem europäischen Ansatz für eine Trainingsdatenbank (LLM) in 24 Sprachen der Europäischen Union. Siehe dazu Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Wir werden diese Modelle in der nächsten Zeit testen und unsere Erkenntnisse in Blogbeiträgen darstellen.

Buyl et al. (2024): Large Language Models Reflect the Ideology of their Creators

In dem Blogbeitrag Digitale Souveränität: Europa, USA und China im Vergleich wird deutlich gemacht, dass Europa, die USA und China unterschiedliche Ansätze bei dem Thema Digitale Souveränität haben. Diese grundsätzlichen Unterschiede zeigen sich auch in den vielen Large Language Models (Trainingsdatenbanken), die für KI-Anwendungen benötigt werden.

Es wundert daher nicht, dass in dem Paper Buyl et al. (2024): Large Language Models Reflect The Ideology of their Creators folgende Punkte hervorgehoben werden:

“The ideology of an LLM varies with the prompting language.”

In dem Paper geht es um die beiden Sprachen Englisch und Chinesisch für Prompts, bei denen sich bei den Ergebnissen Unterschiede gezeigt haben.

“An LLM’s ideology aligns with the region where it was created.”

Die Region spielt für die LLMs eine wichtige Rolle. China und die USA dominieren hier den Markt.

“Ideologies also vary between western LLMs.”

Doch auch bei den “westlichen LLMs” zeigen sich Unterschiede, die natürlich jeweils Einfluss auf die Ergebnisse haben, und somit auch manipulativ sein können.

Die Studie zeigt wieder einmal, dass es für einzelne Personen, Gruppen, Organisationen oder auch Gesellschaften in Europa wichtig ist, LLMs zu nutzen, die die europäischen Sprachen unterstützen, und deren Trainingsdaten frei zur Verfügung stehen. Das gibt es nicht? Doch das gibt es – siehe dazu

Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co.

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht.

Open Source: Nextcloud-Assistent und Künstliche Intelligenz (KI).

Open Source: Nextcloud-Assistent und Künstliche Intelligenz (KI)

Bei den verschiedenen kommerziellen Anwendungen ist es fast schon Standard, dass Assistenten eingeblendet und angewendet werden, um Künstliche Intelligenz in den jeweiligen Prozess oder Task zu nutzen. Dabei ist immer noch weitgehend unklar, welche Trainingsdaten bei den verschiedenen Trainingsdatenbanken (LLM: Large Language Models) genutzt werden, und was beispielsweise mit den jeweils eigenen Eingaben (Prompts) passiert. Nicht zuletzt werden sich die kommerziellen Anbieter die verschiedenen Angebote mittelfristig auch gut bezahlen lassen.

Es kann daher nützlich sein, Open Source AI zu nutzen.

Praktisch kann das mit NEXTCLOUD und dem darin enthaltenen Nextcloud-Assistenten umgesetzt werden. Jede Funktion (Abbildung) kann man mit einer Traingsdatenbank verbinden, die wirklich transparent und Open Source ist. Solche Trainingsdatenbanken stehen beispielsweise bei Hugging Face zur Verfügung. Darüber hinaus bleiben alle Daten auf dem eigenen Server – ein heute unschätzbarer Wert . Wir werden diesen Weg weitergehen und in Zukunft dazu noch verschiedene Blogbeiträge veröffentlichen. Siehe dazu auch

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften.

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data.

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht.

Künstliche Intelligenz und Open Innovation

AI (Artificial intelligence) AI management and support technology in the Business plan marketing success customer. AI management concept.

Zunächst sollten Sie sich noch einmal klar machen, wie sich Closed Innovation und Open Innovation unterscheiden. Wie so oft, gibt es nicht nur die beiden Pole, sondern ein Innovations-Kontinuum (Roth 2008). Weiterhin finden Sie in dem Beitrag Künstliche Intelligenz im Innovationsprozess von Organisationen Hinweise dazu, welche Vorteile, bzw. Nachteile es geben kann, wenn für jeden Schritt im Innovationsprozess eines der bekannten KI-Modelle wie ChatGPT, Gemeni etc. genutzt wird.

In diesem Beitrag geht es mir darum aufzuzeigen, wie Künstliche Intelligenz bei Open Innovation genutzt werden kann. Wie der folgenden Tabelle zu entnehmen ist, kann zwischen der Verbesserung von Open Innovation durch KI (OI-Enhancing AI), einer Ermöglichung von Open Innovation durch KI (OI-Enabling AI) und der Ersetzung von Open Innovation durch KI (OI-Peplacing AI) unterschiedenen werden. Die jeweils genannten Beispiele zeigen konkrete Einsatzfelder.

DescriptionExamples
OI-Enhancing AIAI that enhances established forms of open innovation by utilizing the advantages of AI complemented with human involvementInnovation search
Partner search
Idea evaluation
Resource utilization
OI-Enabling AIAI that enables new forms of open innovation, based upon AI’s potential to coordinate and/or generate innovationAI-enabled markets
AI-enabled open business models
Federated learning
OI-Replacing AIAI that replaces or significantly reshapes established forms of open innovationAI ideation
Synthetic data
Multi-agent systems
Quelle: Holgersson  et al. (2024)

Alle drei Möglichkeiten – mit den jeweils genannten Beispielen – können von einem KI-Modell (z.B. ChatGPT oder Gemeni etc.) der eher kommerziell orientierten Anbieter abgedeckt werden. Dieses Vorgehen kann als One Sizes Fits All bezeichnet werden.

Eine andere Vorgehensweise wäre, verschiedene spezialisierte Trainingsmodelle (Large Language Models) für die einzelnen Prozessschritte einzusetzen. Ein wesentlicher Vorteil wäre, dass solche LLM viel kleiner und weniger aufwendig wären. Das ist gerade für Kleine und Mittlere Unternehmen (KMU) von Bedeutung.

Nicht zuletzt kann auch immer mehr leistungsfähige Open Source AI eingesetzt werden. Dabei beziehe ich mich auf die zuletzt veröffentlichte Definition zu Open Source AI. Eine Erkenntnis daraus ist: OpenAI ist kein Open Source AI. Die zuletzt veröffentlichten Modelle wie TEUKEN 7B oder auch Comon Corpus können hier beispielhaft für “wirkliche” Open source AI genannt werden.

Weiterhin speilen in Zukunft AI Agenten – auch Open Source – eine immer wichtigere Rolle.

Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

“Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer” (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!

Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht

Quelle: Link

In verschiedenen Blogbeiträgen hatte ich schon erwähnt, dass die aktuell noch dominierenden Trainingsdatenbanken (LLM: Large Language Models) der kommerziellen Anbieter wie OpenAI mit ChatGPT usw. wenig transparent sind. Diese Intransparenz, gepaart mit den immer lauter geäußerten Urheberverletzungen, und den immer deutlicher werdenden wirtschaftlichen Interessen der Tech-Giganten, lässt immer mehr Organisationen bei der Nutzung von Artificial Intelligence (A): künstlicher Intelligenz) nachdenklich werden. Um es hier noch einmal klarzustellen: OpenAI ist keine Open Source AI! Siehe dazu beispielsweise Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht.

In der Zwischenzeit gibt es viele spezielle Trainingsdatenbanken, die transparent und auch in ihren Datenvolumina kompakter sind. Was bisher noch fehlte war ein LLM, das auf der Basis der vorhandenen offenen Systeme wie Open Governement, Open Web, Open Science, Open Culture und Open Source Trainingsdaten bereit stellt, die neben Transparenz und freier Nutzbarkeit auch die immer wichtiger werdenden Urheberrechte berücksichtigt. In der Zwischenzeit gibt es Common Corpus: “Truly Open: contains only data that is permissively licensed”.

In dem Beitrag Langlait et al (2024): Releasing the largest multilingual open pretraining dataset vom 14.11.2024 auf Huggingface wird das Konzept und das Alleinstellungsmerkmal von Common Corpus als Teil der AI Alliance Open Trusted Data Initiative vorgestellt.

“Many have claimed that training large language models requires copyrighted data, making truly open AI development impossible. Today, Pleias is proving otherwise with the release of Common Corpus (part of the AI Alliance Open Trusted Data Initiative)—the largest fully open multilingual dataset for training LLMs, containing over 2 trillion tokens of permissibly licensed content with provenance information (2,003,039,184,047 tokens)” (Source).

Die immer wieder von den Tech-Giganten vorgebrachte Meinung, dass eine gute Trainingsdatenbank nicht ohne urheberrechtlich geschützte Daten auskommt, ist also falsch und soll wohl eher das eigene Geschäftsmodell schützen. Es ist beeindruckend zu sehen, wie dynamisch sich Open Source AI für viele Organisationen zu einer durchaus interessanten Alternative zu den etablierten AI-Systemen entwickelt.

Aktuelle Studie der ETH Zürich: Kein populäres LLM entspricht den EU AI Act – Anforderungen

Künstliche Intelligenz mit seinen vielfältigen Möglichkeiten wird immer populärer. Die Europäische Union hat daher schon 2023 versucht, die Entwicklung so zu regulieren, dass einerseits (persönliche und organisationale) Rechte garantiert bleiben und anderseits, die Entwicklung von Innovationen nicht unnötig gebremst wird. Siehe dazu ausführlicher: EU AI Act: first regulation on artificial intelligence.

Natürlich stellt sich dabei sofort die Frage, ob die populären KI-Anwendungen mit ihren verwendeten Large Language Models (LLMs) diesen Anforderungen gerecht werden. In einer umfassenden Studie wurde das an der ETH Zürich nun untersucht, und am 10. Oktober 2024 veröffentlicht. Das Ergebnis ist ernüchternd;

“Finally, we applied our benchmarking suite to evaluate 12 popular LLMs, identifying that both current models and state-of-the-art benchmarks exhibit critical shortcomings in the context of the Act. In particular, none of the examined models are fully compliant with the requirements of the EU AI Act, and certain technical requirements cannot be currently assessed with the available set of tools and benchmarks, either due to a lack of understanding of relevant model aspects (e.g., explainability), or due to inadequacies in current benchmarks (e.g., privacy)” (Guldimann et al. (2024): COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act | PDF).

Ich bin sehr gespannt, was nun passiert, oder auch nicht passiert. Wird sich die EU mit ihren Anforderungen an KI-Anwendungen stärker durchsetzen, oder wird die Lobbyarbeit der verschiedenen Anbieter die Vorgaben mit der Zeit “aufweichen”. Möglicherweise gibt es auch einen dritten Weg: Open Source LLM erfüllt die Anforderungen und ist so leistungsfähig, wie die oftmals kommerziellen Angebote. Warum eigentlich nicht?

Künstliche Intelligenz: Warum sollten Forscher besser offene Large Language Models (LLM) nutzen?

Usage of large language models (LLMs) in behavioral and social sciences research (Wulff/Hussain/Mata 2024). Die Hervorhebung in Rot ist von mir (Robert Freund) ergänzt worden.

Natürlich verwenden immer mehr Wissenschaftler Künstlichen Intelligenz in ihrer Arbeit. Wie die Grafik zeigt, wird ChatGPT beispielsweise in den Verhaltens- und Sozialwissenschaften sehr stark genutzt. ChatGPT ist allerdings von OpenAI, dessen Large Language Model (LLM) als eher geschlossenes System (Closed LLM) bezeichnet werden kann, da das zugrundeliegende Datenmodell nicht transparent ist. Andere LLM – wie z.B. LLama – sind eher offen LLM (Open LLM), die gerade für Forschung und Wissenschaft geeigneter erscheinen.

In dem aktuellen Paper Wulff/Hussain/Mata (2024): The Behavioral and Social Sciences Need Open LLMs (PDF) argumentieren die Autoren dazu wie folgt:

Academic research should prefer open LLMs because they offer several practical and ethical advantages that are essential for scientific progress.

First, open models provide the transparency necessary for thorough scrutiny, allowing researchers to understand better the tools they are using and ensuring accountability.

Second, this transparency, combined with the adaptability of open models, facilitates innovation by enabling researchers to customize models to meet specific needs and explore new applications (Wulff & Mata, 2024).

Third, open LLMs support reproducibility, a cornerstone of scientific research, by allowing other researchers to replicate and build upon existing work.

Finally, the ethical implications of AI usage are better managed with open models, as they enable greater scrutiny of AI decisions, arguably reduce the risks of deploying biased or unethical systems, and avoid giving away data to further train closed, proprietary models.”

Ich frage mich an dieser Stelle, ob solche Hinweise nicht auch für die Nutzung von Künstlicher Intelligenz in Unternehmen gelten sollten.

Siehe dazu auch Künstliche Intelligenz: Vorteile von Open-Source-Modellen

Nextcloud-Assistent – Lokales LLM als Assistent in Nextcloud integriert

Nextcloud ist eine Open Source Anwendung, die durch verschiedene Apps an die individuellen Anforderungen angepasst werden kann. Damit die Arbeit noch zeitgemäßer, und somit KI-unterstützt durchgeführt werden kann, wurde 2023 die erste Version des Nextcloud Assistenten veröffentlicht. Wir haben nun die Version 1.03 vom Dezember 2023 bei uns problemlos installiert.

Das Symbol für den Nextcloud Assistenten erscheint in der oberen Leiste des Dashboards und in allen Apps, die in unserer Nextcloud verwendet werden. Wie in der Abbildung zu sehen ist, können dabei Context Chat, Free Prompt oder Generate Headline aufgerufen werden. Weitere Funktionen, die sich hinter den drei Punkten verbergen sind Summarize und Reformulate.

Es ist wirklich erstaunlich, wie dynamisch sich Nextcloud entwickelt und die vielfältigen KI-Möglichkeiten integriert – alles Open Source.