RAG: KI-Basismodelle mit eigener Wissensbasis verknüpfen

Gerade Kleine und Mittlere Unternehmen (KMU) können es sich oftmals nicht leisten, eigene Trainingsmodelle (Large Language Models) zu entwickeln. KMU greifen daher gerne auf bekannte Modelle wie ChatGPT usw. zurück.

Es wird allerdings gerade bei innovativen KMU immer klarer, dass es gefährlich sein kann, eigene Datenbestände in z.B. ChatGPT einzugeben. Da diese Modelle nicht transparent sind ist unklar, was mit den eigenen Daten passiert.

Eine Möglichkeit aus dem Dilemma herauszukommen ist, RAG (Retrieval-Augmented Generation) zu nutzen – also ein Basismodell mit einer internen Wissensbasis zu verknüpfen:

Retrieval-Augmented Generation (RAG): Bei RAG wird ein Basismodell wie GPT-4, Jamba oder LaMDA mit einer internen Wissensbasis verknüpft. Dabei kann es sich um strukturierte Informationen aus einer Datenbank, aber auch um unstrukturierte Daten wie E-Mails, technische Dokumente, Whitepaper oder Marketingunterlagen handeln. Das Foundation Model kombiniert die Informationen mit seiner eigenen Datenbasis und kann so Antworten liefern, die besser auf die Anforderungen des Unternehmens zugeschnitten sind” (heise business services (2024): KI für KMU: Große Sprachmodelle erfolgreich einsetzen – mit Finetuning, RAG & Co.).

Wir gehen noch einen Schritt weiter, indem wir (1) einerseits LocalAI und Open Source AI mit einem Assistenten nutzen, und (2) darüber hinaus mit Hilfe von Ollama und Langflow eigene KI-Agenten entwickeln, die auf Basis von Open Source AI Modellen und beliebig konfigurierbaren eigenen Input einen gewünschten Output generieren In dem gesamten Prozess bleiben alle Daten auf unserem Server.

Künstliche Intelligenz: Mit Private Prompts (Open Source) bleiben die Daten auf dem eigenen Rechner

Was passiert eigentlich mit meinen Daten, wenn ich Künstliche Intelligenz nutze? Bei Anweisungen (Prompts) an das jeweilige KI-Modell ist oft nicht klar, was mit den Daten passiert, da viele der bekannten Modelle – wie beispielsweise ChatGPT – Closed Source Models, also nicht transparent sind.

Gerade wenn es um persönliche Daten geht, ist das unangenehm. Es ist daher sehr erfreulich, dass die Entwicklung eines Tools, dass die privaten Daten schützt öffentlich gefördert wurde und als Open Source Anwendung frei zur Verfügung steht.

“Mit der kostenlosen Anwendung Private Prompts bleiben deine Daten dort, wo sie hingehören – bei dir auf deinem Rechner. Die Entwicklung von Private Prompts wird im Zeitraum 1.9.2024-28.02.2025 gefördert durch das Bundesministerium für Bildung und Forschung und den Prototype Fund (Förderkennzeichen 01IS24S44)” (Quelle: https://www.privateprompts.org/).

Wir gehen noch einen Schritt weiter, in dem wir LocalAI auf unserem Server installiert haben. Wir nutzen dabei verschiedene Modelle, die als Open Source AI bezeichnet werden können. Siehe dazu

LocalAI: Aktuell können wir aus 713 Modellen auswählen

Open Source AI: Besser für einzelne Personen, Organisationen und demokratische Gesellschaften

Mit Künstlicher Intelligenz und Online-Daten von Verbrauchern können (auch eigene) Produkte direkt entwickelt werden

Mit Hilfe der hybriden Wettbewerbsstrategie Mass Customization (PDF) ist es Unternehmen möglich, Produkte zu individualisieren, ohne dass der Preis höher ist, als bei massenhaft hergestellten Produkten. Kernelement ist dabei ein Konfigurator, mit dem der Kunde selbst in einem definierten Lösungsraum (fixed solution space) vielfältige Möglichkeiten zusammenstellen kann. In der Zwischenzeit gibt es allerdings mit Künstlicher Intelligenz noch ganz andere Optionen für Mass Customization.

Künstliche Intelligenz kann für einen Verbraucher Produkte und Dienstleistungen entwickeln und anbieten, nur auf Basis der vom Konsumenten generierten Daten – sogar ohne die aktive Mitwirkung des Konsumenten. Damit bringt Künstliche Intelligenz Mass Customization auf ein neues Level: Smart Customization.

“But this is one area where AI can take mass customization to a new level: The growth of AI and machine learning can allow us to use all the data traces consumers leave online to design a perfect product for an individual consumer, without their active involvement. AI can evolve into the ability to perfectly customize a product for a consumer, without the
need for a conscious process of elicitation from the consumer. As a consumer, I could specify what I want for aesthetics, while for functional parameters, it could be the system that senses what I want and desire. An algorithm reading your Instagram profile might know better than you do about your dream shirt or dress. I see a lot of opportunity to use the data that’s out there for what I call smart customization” (Piller, Frank T. and Euchner, James, Mass Customization in the Age of AI (June 07, 2024). Research-Technology Management, volume 67, issue 4, 2024 [10.1080/08956308.2024.2350919], Available at SSRN: https://ssrn.com/abstract=4887846).

Dieser Ansatz ist natürlich für Unternehmen interessant, da sie die umständlichen und teuren Befragungen von Verbraucher nicht mehr – oder etwas weniger – benötigen, um angemessene Produkte anzubieten.

Es gibt allerdings auch noch eine andere Perspektive: Was ist, wenn die Verbraucher ihre eigenen Daten mit Hilfe von Künstlicher Intelligenz selbst nutzen, um eigene Produkte zu entwickeln? Im Extremfall – und mit Hilfe von modernen Technologien wie z.B. den 3D-Druck (Additive Manufacturing) – können sich die Verbraucher innovative Produkte selbst herstellen. Diese Option klingt etwas futuristisch, da wir es gewohnt sind, Innovationen mit Unternehmen in Verbindung zu bringen. Doch hat Eric von Hippel gezeigt, dass es immer mehr von diesen Open User Innovation gibt, die gar nicht in den üblichen Statistiken zu Innovation auftauchen. Siehe dazu auch

Eric von Hippel (2005): Democratizing Innovation

Free Innovation: Was wäre, wenn wir Innovationen stärker Bottom-Up denken und fördern würden?

Eric von Hippel (2017): Free Innovation

LocalAI: Das Open Source Modell olmOCR installiert

Eigener Screenshot

Wie schon in mehreren Blogbeiträgen erläutert, haben wir das Ziel, einen souveränen Arbeitsplatz zu gestalten, bei dem u.a. auch Künstliche Intelligenz so genutzt werden kann, dass alle eingegebenen und generierten Daten auf unserem Server bleiben.

Dazu haben wir LocalAI (Open Source) auf unserem Server installiert. Damit können wir aktuell aus mehr als 700 frei verfügbaren KI-Modellen je nach Bedarf auswählen. Zu beachten ist hier, dass wir nur Open Source AI nutzen wollen. Siehe dazu auch AI: Was ist der Unterschied zwischen Open Source und Open Weights Models?

Bei den verschiedenen Recherchen sind wir auch auf OLMo gestoßen. OLMo 2 ist eine LLM-Familie (Large Language Models), die von Ai2 – einer Not for Profit Organisation – entwickelt wurde und zur Verfügung gestellt wird:

“OLMo 2 is a family of fully-open language models, developed start-to-finish with open and accessible training data, open-source training code, reproducible training recipes, transparent evaluations, intermediate checkpoints, and more” (Source: https://allenai.org/olmo).

Unter den verschiedenen Modellen haben wir uns die sehr spezielle Version allenai_olmocr-7b-0225 in unserer LocalAI installiert – siehe Abbildung.

“olmOCR is a document recognition pipeline for efficiently converting documents into plain text” (ebd.)

Siehe dazu auch Efficient PDF Text Extraction with Vision Language Models.

Selbstverständlich werden wir demnächst auch noch andere Möglichkeiten aus der OLMo-Familie testen und Erfahrungen sammeln.

Ein genauerer Blick auf einen Teil von “Ungewissheit”, der bisher zu wenig beachtet wird

Wenn es um die Beschreibung des Umfeldes geht, verwenden wir oft den Begriff “Ungewissheit”. Dabei wird allerdings nicht immer erkannt, dass “Ungewissheit” zwei Dimensionen enthält, die ganz unterschiedlich gehandhabt werden müssen. Einerseits sind es die “Known Unknowns“, die mit den bekannten Managementansätzen (Risikomanagement) angegangen werden können. Eine weitaus wichtigere Dimension stellen allerdings die “Unknown Unknowns” dar. Dazu habe ich folgenden Text gefunden:

“Wichtig ist beim Blick auf Ungewissheit die Unterscheidung zwischen „Known Unknowns“ und „Unknown Unknowns“. Ersteres bezieht sich auf die Bearbeitung von Risiken und das Risikomanagement. Ziel ist, nicht vollständig vorhersehbare und kontrollierbare Ereignisse gleichwohl weitmöglichst zu beschreiben und die Wahrscheinlichkeit ihres Eintretens zu berechnen. Auf dieser Grundlage erscheint es dann auch möglich, den Umgang mit Risiken zu planen und ein entsprechendes Risikomanagement zu entwickeln. Demgegenüber besteht bei „Unknown Unknowns“ Ungewissheit sowohl über die konkreten Erscheinungsformen als auch die jeweils situativen Bedingungen (Zeit, Ort, Umfang) ihres Auftretens. Risiken und das Risikomanagement lassen sich somit weitgehend dem klassischen Management mit Planung und Kontrolle zuordnen, wohingegen die „Unknown Unknowns“ die eigentliche Ungewissheit benennen und ein weitgehend „blinder Fleck“ im Projektmanagement sowie auch Management insgesamt sind” (Boehle et al 2018, in projektmanagementaktuell 1/2018).

Es wird in Zukunft immer entscheidender sein, wie Management mit beiden Dimensionen umgeht. Aktuell liegt der Fokus auf den “Known Unknowns”, für das eher klassisches Management und auf Technologien, wie z.B. auch Künstliche Intelligenz, angewendet wird – dabei werden die “Unknown Unknowns” häufig vernachlässigt. Gerade bei der Bewältigung von “Unknown Unknowns” kommt dem Menschen eine bedeutende Rolle zu, da der Mensch in der Lage ist diese Form der Ungewissheit zu bewältigen. Siehe dazu auch Über den Umgang mit Ungewissheit und Kompetenzmanagement.

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen, Projektmanager/in (IHK) und Projektmanager/in Agil (IHK), die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.

Versuch einer Einordnung: Menschliche Intelligenz, Hybride Intelligenz, Künstliche Intelligenz

Artificial Intelligence in relation to human intelligence (Hossein Jarrahi et al. 2022, https://doi.org/10.1177/20539517221142824

Der Begriff “Intelligenz” wird in der aktuellen Diskussion um Künstliche Intelligenz (Artificial Intelligence) immer wichtiger. Dabei gibt es oft zwei Argumentations-Pole, die sich scheinbar unüberbrückbar gegenüberstehen:

Zunächst ist da der Standpunkt, dass Künstliche Intelligenz (Technologie) in Zukunft auch die Menschliche Intelligenz umfassen wird. Demgegenüber gibt es die Perspektive, dass die Menschliche Intelligenz Elemente enthält, die (noch) nicht von Technologie (Künstlicher Intelligenz) ersetzt werden kann.

In der Zwischenzeit setzt sich – wie so oft – immer stärker die Auffassung durch, dass es durchaus Sinn machen kann, eine Art Hybride Intelligenz zu thematisieren, also eine Art Schnittmenge zwischen Menschlicher und Künstlicher Intelligenz. In der Abbildung ist diese Sicht auf Intelligenz dargestellt.

“Put simply, humans possess “general intelligence” in being able to comprehend and analyze various situations and stimuli, to ideate, create and imagine. The intelligence projected by AI systems is predominantly task-centered (Narayanan and Kapoor, 2022)” (Hossein Jarrahi et al. 2022).

Ergänzen möchte ich an dieser Stelle, dass hier der Begriff “general intelligence” bei der Menschlichen Intelligenz wohl auf den Intelligenz-Quotienten verweist, der allerdings in der Gesamtdiskussion wenig hilfreich erscheint. In dem Beitrag OpenAI Model “o1” hat einen IQ von 120 – ein Kategorienfehler? wird deutlich, dass aktuelle KI-Modelle schon locker entsprechende Intelligenz-Tests bestehen.

Meines Erachtens scheint es immer wichtiger zu sein, das Verständnis der Menschlichen Intelligenz im Sinne von Multiplen Intelligenzen nach Howard Gardner zu erweitern Dieses Verständnis hätte eine bessere Passung zu der aktuellen Entwicklung.

Siehe dazu auch Freund, R. (2011): Das Konzept der Multiplen Kompetenz auf den Analyseebenen Individuum, Gruppe, Organisation und Netzwerk.

Der Projektabschluss in verschiedenen Projektmanagement-Standards/Normen

Im Projektmanagements sind neben den Normen und Vorgehensmodellen auch Standards wichtig. In der folgenden Tabelle werden die wichtigsten genannt, und ein Bezug zum Projektabschluss hergestellt.

OrientierungAnzahl der Prozesse im Projektabschluss
PMBoK® GuideProzesse2
PRINCE2®Prozesse5
ICBKompetenzen16
DIN 69901Prozesse9
ISO 21500Prozesse2
Vergleichsmatrix Projektabschluss bei verschiedenen PM-Standards und PM-Normen (Stollwerk et al. 2015, in projektmanagementaktuell 2/2025

Es wird deutlich, dass alle den Projektabschluss thematisieren, allerdings unterschiedlich stark auf die im Projektabschluss erforderlichen Punkte eingehen. Die Autoren vermissen bei jedem der genannten Standards/Normen immer wieder wichtige Aspekte, die in der Abschlussphase enthalten sein sollten.

“Letztendlich ist einem Projektleiter zu empfehlen, mehrere unterschiedliche Standards bei der Vorbereitung des Projektabschlusses zur Hand zu nehmen und diese als Anregung im Sinne einer Checkliste zu nutzen” (ebd.).

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen, Projektmanager/in (IHK) und Projektmanager/in Agil (IHK), die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.

Projektorientiertes Lernen bedeutet auch Sozialkompetenzen entwickeln

Für eine erfolgreiche Projektarbeit sind verschiedene Kompetenz erforderlich. Neben der Methodenkompetenz sind das auch Sozial- und Persönlichkeitskompetenzen. Die ICB 4.0 (Individual Competence Baseline) weist dazu auf verschiedene Dimensionen hin. Auch in der Projektarbeit selbst, werden dabei Kompetenzen entwickelt. Beispiele für Sozialkompetenzen im Zusammenhang mit Projekten sind (Richter 2020, in projektmanagementaktuell 1/2020):

Aufgrund der Interdisziplinarität von Projektgruppen sind regelmäßig Abstimmungsprozesse erforderlich.

Der Umgang mit Krisensituationen z. B. im Fall drohender Fristüberschreitungen ist typisch für Projektsituationen.

Auch Konflikte mit der internen und externen Projektumwelt lassen sich in der Regel nicht vermeiden, so dass die Beherrschung von Konfliktmanagement eine zentrale Kompetenz für die Projektarbeit darstellt.

Projekte leben von der Teamarbeit innerhalb des Projektteams.

Ein Großteil der Tätigkeiten in Projekten ist mit Kommunikation verbunden.

Die Fähigkeiten zur Gesprächsführung und zu Verhandlungen sind für die Gestaltung von Projektsituationen erforderlich.

Projektstrukturen trennen zwischen dispositiven und ausführenden Tätigkeiten, so dass Führungsverhalten ein relevantes Thema darstellt.

Verbindlichkeit in Bezug auf Absprachen und Termine sollte die Regel der Projektarbeit sein.

Siehe dazu auch

Hybridisierung von Kompetenzen: Kompetenzmanagement in Zeiten von Künstlicher Intelligenz

Kompetenzprofile eines Fachmanns, einer Führungskraft und eines Projektmanagers im Vergleich

Eine Projektwirtschaft benötigt auch ein projektbasiertes Lernen (PBL)

John Dewey: Projektmethode und lebenslanges Lernen

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen, Projektmanager/in (IHK) und Projektmanager/in Agil (IHK), die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.

Daten als Ressource: Um welche Kategorien von Daten geht es?

Wir sind uns alle einig, dass Daten eine bedeutende Ressource für einzelne Personen, Unternehmen, Organisationen und ganze Gesellschaften darstellen. Einerseits müssen Daten offen verfügbar sein, andererseits allerdings auch geschützt werden. Insofern macht es Sinn, verschiedene Kategorien für Daten zu unterscheiden:

Open data: data that is freely accessible, usable and shareable without restrictions, typically under an open license or in the Public Domain36 (for example, OpenStreetMap data);
Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed”
(Tarkowski, A. (2025): Data Governance in Open Source AI. Enabling Responsible and Systemic Access. In Partnership with the Open Source Initiative).

Es zeigt sich, dass es viele frei verfügbare Daten gibt, doch auch Daten, die geschützt werden sollten.

Die amerikanischen Tech-Konzerne möchten alle Daten für ihre Trainingsdatenbanken (LLM: Large Language Models) kostenlos nutzen können. Das Ziel ist hier, die maximale wirtschaftliche Nutzung im Sinne einiger weniger Großkonzerne. Dabei sind die Trainingsdaten der bekannten KI-Modelle wie ChatGPT etc. nicht bekannt/transparent. Die Strategie von Big-Tech scheint also zu sein,: Alle Daten “abgreifen” und seine eigenen Daten und Algorithmen zurückhalten. Ein interessantes Geschäftsmodell, dass sehr einseitig zu sein scheint.

Bei der chinesische Perspektive auf Daten liegt der Schwerpunkt darauf, mit Hilfe aller Daten politische Ziele der Einheitspartei zu erfüllen. Daran müssen sich alle Bürger und die Unternehmen – auch die KI-Unternehmen – halten.

In Europa versuchen wir einen hybriden Ansatz zu verfolgen. Einerseits möchten wir in Europa Daten frei zugänglich machen, um Innovationen zu fördern. Andererseits wollen wir allerdings auch, dass bestimmte Daten von Personen, Unternehmen, Organisationen und Öffentlichen Verwaltungen geschützt werden.

An dieser Stelle versucht die aktuelle amerikanische Regierung, Druck auf Europa auszuüben, damit Big-Tech problemlos an alle europäischen Daten kommen kann. Ob das noch eine amerikanische Regierung ist, oder nicht schon eine kommerziell ausgerichtete Administration wird sich noch zeigen. Das letzte Wort werden wohl die Gerichte in den USA haben.

Ich hoffe, dass wir in Europa unseren eigenen Weg finden, um offene Daten in großem Umfang verfügbar zu machen, und um gleichzeitig den Schutz sensibler Daten zu gewährleisten.

Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich.

Mit Hilfe der Stacey-Matrix klassische und agile Vorgehensmodelle im Projektmanagement abgrenzen

Vgl. Komus (2018) und eigene Ergänzungen

Wenn es darum geht, Klassische Vorgehensmodelle (Plangetriebene Vorgehensmodelle) und Agile Vorgehensmodelle abzugrenzen, wird oftmals die Stacey-Matrix herangezogen. – obwohl es mit dem Cynefin-Ansatz, dem Vorschlag von Boehm & Turner usw. auch andere Möglichkeiten gibt.

In der Stacey-Matrix werden auf der Y-Achse Anforderungen an das Projekt von “weitreichend klar” bis “geringe Klarheit” positioniert. Hier geht es somit um das WAS. Auf der X-Achse geht es um Technik/Methode, die für das Projekt “im Griff” oder auch “unklar/unsicher” sein können. Hier geht es um das WIE (Siehe Abbildung).

Es ergeben sich daraus drei Bereiche: Simpel, Kompliziert und Komplex. Weiterhin können über die Diagonale die geeigneten Vorgehensmodelle abgeleitet werden. Simpel bedeutet hier, dass die Anforderung als Routinetätigkeit angesehen werden kann. KVP ist die Abkürzung für “Kontinuierlichen Verbesserungsprozess” oder auch Kaizen. Das bedeutet, um die Anforderungen zu erfüllen, muss der Routineprozess verbessert werden. Reicht das nicht mehr aus, so kommen wir in den Bereich des (Klassischen) Projektmanagements, zu dem es Normen und Standards gibt, die sich in vielen Branchen bewährt haben.

Werden die Anforderungen und auch Technik/Methode immer unklarer, kommen wir von dem komplizierten Bereich immer stärker in einen komplexen Bereich, in dem mehr Selbstorganisation gefordert ist, um das Projekt zum Erfolg zu führen. Mit Kanban, Scrum und Design Thinking sind hier nur drei von vielen Vorgehensmodellen genannt, die dem Agilen Projektmanagement zugerechnet werden.

Der Vorteil der Stacey-Matrix liegt darin, dass sie recht einfach umsetzbar ist und somit einen schnellen und guten Einstieg dafür bietet herauszufinden, welches Vorgehensmodell für ein Projekt geeignet erscheint.

Nachteile der Stacey-Matrix sind: (1) Es sind nur zwei Dimensionen zu bewerten – bei einem komplexen Projekt möglicherweise zu wenig, (2) Das Hybride Projektmanagement wird hier nur indirekt thematisiert. Man könnte den Bereich zwischen “Kompliziert” und “Komplex” dafür nehmen, was allerdings recht ungenau wäre.

Zur Verbesserung bietet es sich an ein Analysetool zu verwenden, das mehrere Dimensionen berücksichtigt und auch die Möglichkeit des Hybriden Projektmanagements enthält. Siehe dazu Projektmanagement: Einfaches Tool zur Analyse des angemessenen Vorgehensmodells – Planbasiert, Hybrid, Agil.

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen, Projektmanager/in (IHK) und Projektmanager/in Agil (IHK), die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.