Open Source AI-Models for Europe: Teuken 7B – Training on >50% non English Data

Immer mehr Privatpersonen und Organisationen realisieren, dass die populären Trainingsdaten (LLM: Large Language Models) für ChatGPT von OpanAI, oder auch Gemini von Google usw., so ihre Tücken haben können, wenn es beispielsweise im andere oder um die eigenen Urheberrechte geht. In diesem Punkt unterscheiden wir uns in Europa durchaus von den US-amerikanischen und chinesischen Ansätzen. Siehe dazu Digitale Souveränität: Europa, USA und China im Vergleich. Darüber hinaus liegen die Daten der bekannten (closed source) LLMs zu einem überwiegenden Teil in englischer oder chinesischer Sprache vor.

Die Alternativen waren bisher entweder nicht leistungsstark genug, oder einfach nicht für die Allgemeinheit als Open Source Model verfügbar. Siehe dazu Open Source AI Definition – 1.0: Release Candidate 2 am 21.10.2024 veröffentlicht. Das hat sich in der Zwischenzeit geändert. Beispielsweise wurde Open Source AI: Common Corpus als größte offene Trainingsdatenbank veröffentlicht, die gerade Daten für KI-Anwendungen enthält, die urheberrechtlich freigegeben wurden. Weiterhin gibt es das geförderte Projekt OpenGPT-X, das nun Teuken 7B-v0.4 veröffentlicht hat.

Quelle: https://opengpt-x.de/en/models/teuken-7b/

“Multilingual, open source models for Europe – instruction-tuned and trained in all 24 EU languages…. Training on >50% non English Data. (…) This led to the creation of a custom multilingual tokenizer” (ebd.).

Neben der freien Verfügbarkeit (Open Source AI) (via Hugging Face) ist somit ein großer Pluspunkt, dass eine große Menge an Daten, nicht englischsprachig sind. Das unterscheidet dieses Large Language Model (LLM) sehr deutlich von den vielen englisch oder chinesisch dominierten (Closed Source) Large Language Models.

Insgesamt halte ich das alles für eine tolle Entwicklung, die ich in der Geschwindigkeit nicht erwartet hatte!

Künstliche Intelligenz: Warum sollten Forscher besser offene Large Language Models (LLM) nutzen?

Usage of large language models (LLMs) in behavioral and social sciences research (Wulff/Hussain/Mata 2024). Die Hervorhebung in Rot ist von mir (Robert Freund) ergänzt worden.

Natürlich verwenden immer mehr Wissenschaftler Künstlichen Intelligenz in ihrer Arbeit. Wie die Grafik zeigt, wird ChatGPT beispielsweise in den Verhaltens- und Sozialwissenschaften sehr stark genutzt. ChatGPT ist allerdings von OpenAI, dessen Large Language Model (LLM) als eher geschlossenes System (Closed LLM) bezeichnet werden kann, da das zugrundeliegende Datenmodell nicht transparent ist. Andere LLM – wie z.B. LLama – sind eher offen LLM (Open LLM), die gerade für Forschung und Wissenschaft geeigneter erscheinen.

In dem aktuellen Paper Wulff/Hussain/Mata (2024): The Behavioral and Social Sciences Need Open LLMs (PDF) argumentieren die Autoren dazu wie folgt:

Academic research should prefer open LLMs because they offer several practical and ethical advantages that are essential for scientific progress.

First, open models provide the transparency necessary for thorough scrutiny, allowing researchers to understand better the tools they are using and ensuring accountability.

Second, this transparency, combined with the adaptability of open models, facilitates innovation by enabling researchers to customize models to meet specific needs and explore new applications (Wulff & Mata, 2024).

Third, open LLMs support reproducibility, a cornerstone of scientific research, by allowing other researchers to replicate and build upon existing work.

Finally, the ethical implications of AI usage are better managed with open models, as they enable greater scrutiny of AI decisions, arguably reduce the risks of deploying biased or unethical systems, and avoid giving away data to further train closed, proprietary models.”

Ich frage mich an dieser Stelle, ob solche Hinweise nicht auch für die Nutzung von Künstlicher Intelligenz in Unternehmen gelten sollten.

Siehe dazu auch Künstliche Intelligenz: Vorteile von Open-Source-Modellen

Top 100 Tools for Learning 2024

Quelle: Tools for Learning

Es ist nicht verwunderlich, dass immer mehr KI-Anwendungen in der Liste der 100 Tools for Learning auftauchen. ChatGPT ist vom 4. auf den 2. Platz vorgerückt und weitere KI-Copilots tauchen in der Liste auf, bzw. rücken auch in den Platzierung vor. Es sieht so aus, als ob immer mehr KI-Anwendungen für Lernprozesse genutzt werden.

Es ist daher für viele an der Zeit, sich mit den Möglichkeiten und Beschränkungen von KI-Anwendungen bei Lernprozessen zu befassen. Am besten geht das in Unternehmen natürlich im Prozess der Arbeit: Kompetenzentwicklung im Prozess der Arbeit.

Erwähnen möchte ich hier, dass mir in der Liste Open-Source-KI-Anwendungen fehlen oder zu kurz kommen. Viele der KI-Anwendungen sind von Microsoft und Google dominiert, auch wenn z.B. ChatGPT von OpenAI ist und suggeriert, dass die Anwendung “Open” ist. Siehe dazu Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co. und Künstliche Intelligenz: Vorteile von Open Source Modellen.

Open Source AI: Nun gibt es endlich eine Definition – und damit interessante Erkenntnisse zu OpenAI und Co.

OpenAI ist mit ChatGPT etc. inzwischen weltweit erfolgreich am Markt. Angefangen hat das damalige Start-up mit der Idee, Künstliche Intelligenz (AI) als Anwendung offen, und damit frei verfügbar und transparent anzubieten. – ganz im Sinne der Open Source Idee.

Durch den Einstieg von Microsoft ist der Name OpenAI zwar geblieben, doch sind die Angebote in der Zwischenzeit eher als geschlossenes, intransparentes System einzuordnen, mit dem die Inhaber (Shareholder) exorbitante Gewinne erzielen möchten.

Dieser Problematik hat sich eine Personengruppe angenommen, und eine erste Definition für Open Source AI erarbeitet, anhand der die aktuellen KI-Apps bewertet werden können: In dem Artikel MIT Technology Review (2024): We finally have a definition for open-source AI (Massachusetts Institut of Technology, 22.08.224) findet sich dazu folgendes:

“According to the group, an open-source AI system can be used for any purpose without securing permission, and researchers should be able to inspect its components and study how the system works.

It should also be possible to modify the system for any purpose—including to change its output—and to share it with others to usewith or without modificationsfor any purpose. In addition, the standard attempts to define a level of transparency for a given model’s training data, source code, and weights.”

Die Intransparenz der Trainingsdaten bei den eher geschlossenen KI-Systemen von OpenAI, Meta und Google führt aktuell dazu, dass sich diese Unternehmen mit sehr vielen Klagen und Rechtstreitigkeiten auseinandersetzen müssen.

Die Open Source Initiative (OSI) plant, eine Art Mechanismus zu entwickeln, der bei den jeweiligen KI-Anwendungen anzeigt, ob es sich wirklich um Open Source KI-Anwendungen handelt

Interessant ist, dass dieser Gedanke bei Nextcloud mit seinem Ethical AI Ansatz schon vorweggenommen wurde.

Anwendungsbeispiele für ChatGPT in KMU

Die Möglichkeiten von Künstlicher Intelligenz (KI) am Arbeitsplatz sind vielfältig, und werden daher von großen Konzerne, Privatpersonen und verstärkt auch von Kleinen und mittelständischen Unternehmen (KMU) genutzt. Saskia Powell vom RKW stellte dazu Nicole Simon einige Fragen dazu. Das komplette Interview kann im aktuellen RKW-Magazin 1/2024 unter ” Gekommen, um zu bleiben. Wie kleine und mittlere Unternehmen ChatGPT für sich nutzen können” nachgelesen werden. Ich möchte an dieser Stelle die in dem Interview angegebenen Anwendungsbeispiele für ChatGPT in KMU hervorheben:

> Content-Erstellung und Überarbeitung: Marketingtexte, Webseite, Social Media
> Übersetzungen: Inhalte für nichtdeutsche Märkte übersetzen
> Kundenservice: Antworten auf häufige Fragen, 24/7-Support, Sentiment-Analysen
> Marktforschung: Zusammenfassung von Branchenberichten und Analyse von Kundenfeedback, Entwurf von Interview-Fragen
> Entwicklung von Lernmaterialien und Trainings: Umwandlung von Handbüchern in Kurse mit Fragen, Tests und Webanwendungen
> Dokumentation: Beschreibung von Arbeitsabläufen nach definiertem Standard
> Profilerstellung: Zielgruppendefinition anhand von Vertriebs- und Marketingunterlagen
> Vorbereitung von Verkaufsgesprächen: Antizipation möglicher Kundenfragen, Einwandbehandlung
> Brainstorming: Finden von Metaphern und Beispielen
> Programmierung: Dokumentation und Analyse von Codes, Unterstützung bei der Fehlersuche

Darüber hinaus weist Nicole Simon auch darauf hin, dass ChatGPT nicht kreativ ist, und nicht querdenken kann (ebd.). Ich hätte mir weiterhin gewünscht, dass der Blick nicht nur auf ChatGPT gerichtet wird, sondern die Entwicklungen hin zu einem souveränen Arbeitsplatze erwähnt werden, bei dem viele Anwendungen (inkl. eines KI-Assistenten) Open-Source-basiert sind, damit die Daten bei dem jeweiligen kleinen und mittelständischen Unternehmen (KMU) bleiben können. Siehe dazu auch Nextcloud: Geeignete KI-Apps selbst auswählen – ein Beispiel oder Warum kann NEXTCLOUD zukünftig eine interessante Alternative zu ChatGPT (OpenAI) oder Bard (Google) sein?

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen, Projektmanager/in (IHK) und Projektmanager/in Agil (IHK), die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.

Top 100 Tools for Learning 2023: ChatGPT neu auf Platz 4 eingestiegen

Auch für das Jahr 2023 wurden wieder die TOP 100 Tools for Learning ermittelt. Dabei kam – wenig überraschend ChatGPT gleich neu auf Platz 4. In den TOP 10 ist auch noch gerade so Zoom zu finden (Platz 10), allerdings sind das 5 Platze schlechter als das Jahr zuvor.

Weiterhin fällt mir auf, dass Miro (Online Whiteboard) jetzt auf Platz 61 zu finden ist, was immerhin 37 Plätze schlechter ist, als im Jahr 2022. Möglicherweise liegt es daran, dass Online Whiteboards in der Zwischenzeit in vielen anderen Tools integriert sind. Und wo steht Moodle in dem Ranking? Immerhin auf Platz 39, was keine Veränderung gegenüber 2022 bedeutet.

Wie ich schon in dem Beitrag Top 100 Tools for Learning 2022 – A fool with a tool …? erwähnt hatte, besteht die eigentliche Arbeit darin, geeignete Tools auszuwählen, die ein Lernen in einem bestimmten Kontext (Domäne, Projekt, Geschäftsprozess) auf der individuellen Ebene, auf der Teamebene, auf der organisationalen Ebene und auf der Netzwerkebene ermöglichen.

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen Projektmanager/in (IHK) und Projektmanager/in Agil (IHK), die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.

Warum kann NEXTCLOUD zukünftig eine interessante Alternative zu ChatGPT (OpenAI) oder Bard (Google) sein?

Ja, es gibt ChatGPT von OpenAI, Bard von Google usw. usw. und ich muss sagen, dass die Ergebnisse z.B. von ChatGPT schon beeindruckend sind. Warum sollte man sich dennoch mit Alternatiuven befassen? Es ist relativ einfach, denn manche Unternehmen verbieten den Einsatz von diesen Systemen. Den Grund liefert die Google-Mutter Alphabet selbst: Bard: Google warnt Mitarbeiter vor der Nutzung des eigenen Chatbots. Hier ein Auszug:

Ausgerechnet die Google-Mutter Alphabet warnt seine Mitarbeiter vor der Nutzung generativer KI – inklusive des hauseigenen Chatbots Bard. Speziell Ingenieure sollten weder Code zur Fehleranalyse in trainierten Sprachmodelle eingeben, noch die ausgegebenen Zeilen nutzen. In einem am 1. Juni aktualisierten Datenschutzhinweis von Google heißt es Reuters zufolge: “Fügen Sie keine vertraulichen oder sensiblen Informationen in Ihre Bard-Konversationen ein”. (ebd.)

Die Entwicklungen von NEXTCLOUD könnten in diesem Zusammenhang interessant werden, da es auf Open-Source-Basis die in KI-Anwednungen generieten Daten in ihrer eigenen geschützten Cloud behält. Wie kann man sich das vorstellen? Wie Sie wissen, haben wir Nextcloud als Open-Source-Anwendung für Cloudanwendungen auf unseren Servern installiert. Dabei war bisher der Schwerpunkt auf der Weiterentwicklung zu einer integrierten Kollaborationsplattform auf Open-Source-Basis.

Seit Nextcloud Hub 4 gibt es die Möglichkeit, Apps zur Künstlicher Intelligenz (KI; AI: Articicial Intelligence) in Dateien aufzurufen. In dem Beispiel (Screenshot) haben wir eine Textdatei (TEXT.md) geöffnet, und mit dem Smart Picker (“/”) verschiedene KI-Anwendungen geöffnet. Eine davon basiert auf Stabe Diffusion und kann Bilder auf Basis einer Eingabe (Prompt) generieren. Beispielhaft haben wir in der vorgesehenen Zeile “Projektmanager in einer Teambesprechung” eingegeben. Das Ergebnis sehen Sie in dem Screenshot. Die generierten Daten und die Prompts bleiben alle auf unseren Servern. In einem der nächsten Blogbeiträge, werde ich eine weitere KI-Anwendung innerhalt von NEXTCLOUD vorstelen.

Ziel von Nextcloud ist es, in Zukunft immer mehr AI-Anwendungen integriert anzubieten, wobei die AI-Apps auch ethisch eingeordnet werden sollen. Basis dafür ist eine Ampelfunktion. Siehe dazu Nextcloud Hub 4 mit “ethical AI” Integration – Open Source.

Wir werden in der nächsten Zeit immer mehr AI-Apps in Nextcloud in Bezug zu unseren Themen wie z.B. Projektmanagement ausprobieren, und so wichtige Erfahrungen sammeln.

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen, Projektmanager/in (IHK) und Projektmanager/in Agil (IHK), die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.

Steckt hinter der Künstlichen Intelligenz keine echte Intelligenz? Wie ist das zu verstehen?

In verschiedenen Blogbeiträgen habe ich immer wieder etwas zum Thema “Intelligenz” geschrieben. In Reden wir über Dummheit habe ich beispielsweise die Dichotomie “Intelligenz – Dummheit” kritisiert. Darüber hinaus kommt es mir bei der Diskussion um Künstliche Intelligenz so vor, als ob wir über intelligente technische Systeme sprechen, und dabei gleichzeitig von dummen Menschen ausgehen. Das führt zu der Frage, ob hinter der Künstlichen Intelligenz eine “echte Intelligenz” steckt. Dazu habe ich folgendes gefunden:

Lukowicz: KI ist nichts anderes als eine Menge von mathematischen Methoden und Algorithmen, bei denen man herausgefunden hat, dass sie in der Lage sind, Dinge zu tun, bei denen wir bisher gedacht haben, sie seien nur Menschen vorbehalten. Vor 20 Jahren hat eine KI zum Beispiel zum ersten Mal gegen einen menschlichen Großmeister im Schach gewonnen. KI kann aber auch komplexe Bilder oder Musikstücke erzeugen. Es ist wichtig zu verstehen, dass – egal wie erstaunlich das ist – dahinter keine echte Intelligenz steht. Zumindest nicht in dem Sinne, wie wir vielleicht Intelligenz verstehen. Es sind sehr genau definierte, aber eben oft recht einfache mathematische Verfahren, die auf große Datenmengen angewendet werden” (Quelle: Tagesschau vom 14.06.2023).

Das sagt in dem Interview immerhin Paul Lukowicz, Wissenschaftlicher Direktor und Leiter des Forschungsbereichs Eingebettete Intelligenz am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) und Lehrstuhlinhaber im Fachbereich Informatik der Technischen Universität Kaiserslautern. Führt die Adaption des Intelligenzbegriffs hier in die Irre? Ist es möglicherweise – wie Howard Gardner es formuliert – ein Kategorienfehler? Howard Gardner argumentiert in seiner Theorie der Multiplen Intelligenzen, dass Intelligenz ein biopsychologischges Potential darstellt.

„Ich verstehe eine Intelligenz als biopsychologisches Potenzial zur Verarbeitung von Informationen, das in einem kulturellen Umfeld aktiviert werden kann, um Probleme zu lösen oder geistige oder materielle Güter zu schaffen, die in einer Kultur hohe Wertschätzung genießen (Gardner 2002:46-47).

Für Gardner ist Intelligenz ein „biopsychologisches Potenzial”, wodurch sich dieses Intelligenzverständnis von Maschinen-Intelligenz oder künstlicher Intelligenz unterscheidet.

Demnächst werden wir auch Online-Formate zu ChatGPT im Projektmanagement und zur Theorie der Multiplen Intelligenzen anbieten.

Der KI-basierte Arbeitsplatz – eine erste Einordnung

Die Entwicklung bei KI-Anwendungen ist rasant. Alleine die weltweite Nutzung von ChatGPT von OpenAI hat alle Erwartungen übertroffen. Die Abkürzung ChatGPT lautet dabei etwas ausführlicher “Chatbot Generative Pre-trained Transformer”. Die hinterlegten Daten sind also vorher “trainiert” worden. Beim Start von ChatGPT standen nur Daten bis 2021 zur Verfügung. Dennoch waren die ersten Ergebnisse verblüffend. Siehe dazu ChatGPT – Was ist das? (MDR vom 11.06.2023). In allen gesellschaftlichen Bereichen werden in der Zwischenzeit die Möglichkeiten von ChatGPT genutzt, incl. der mehr als 128 Plugins (Stand: Mai 2023). Dabei ist das Spektrum von OpenAI nicht alleine auf Text beschränkt, sondern enthält mit Dall-E auch Möglichkeiten, KI auf Fotos anzuwenden.

In 2023 hat sich Microsoft mit Milliarden US$ bei OpenAI engagiert. Alle aktuellen und zukünftigen KI-Anwendungen von OpenAI will Microsoft in seine Produkte, wie z.B. in Office, oder auch in die Suchmaschine Bing integrieren – Beispiel. Die Erweiterung auf eine Suchmaschine ermöglicht es der KI-Anwendung, auch auf Daten aus dem Internet zuzugreifen. Dabei ist nicht immer klar zu erkennen, welcher (beispielsweise) Text von welcher Quelle ist. Es wundert daher nicht, dass sich dagegen immer mehr Autoren wehren. Eine ähnliche Entwicklung gibt es bei Fotos. Der Beitrag Künstliche Intelligenz (KI) im Urheberrecht: Welche Rechte bestehen? bietet dazu gute erste Informationen. Wenn Organisationen nun KI-Anwendungen am Arbeitsplatz nutzen wollen, stehen sie vor folgenden Fragen (Auswahl):

  • Welche Anwendungen sind für welchen Arbeitsplatz sinnvoll (Mehrwert)?
  • Wie kann KI in die Arbeitsprozesse integriert werden?
  • Was ist mit dem Urheberrecht?
  • Was passiert mit den generierten Daten?
  • Wo werden die Daten gespeichert, bzw. ausgewertet und weiter genutzt?
  • …..

Microsoft mit OpenAI verweist zwar auf seinen Product Safety Standard, und auch Google Bard oder Facebook weisen auf ähnliches hin, doch haben alle das Problem, dass der Umgang mit Daten meines Erachtens immer noch einer Black Box entspricht: Mit den Anfragen (Prompts) geben Nutzer z.B. Text ein, und erhalten anschließend eine Antwort. Was dazwischen passiert ist nicht transparent. Weiterhin ist der Datenschutz bei den Anbietern oftmals nicht so, wie wir es uns in Europa vorstellen – auch wenn, wie im Falle von Microsoft, nachgebessert wurde. Es wundert daher nicht, dass die EU versucht, einen Rahmen abzustecken (Tagesschau vom 14.06.2023), um die Themen um KI-Anwendungen zu regeln. Diese Regelungen sollten allerdings weiterhin Spielraum für Innovationen bieten. Siehe dazu auch KI-Gesetz der EU.

Wir testen aktuell verschiedene KI-Anwendungen für die von uns entwickelten Blended Learning Lehrgänge. Siehe dazu beispielsweise Digitalisierung – inkl. KI – im Projektmanagement.

Solche Zusammenhänge thematisieren wir auch in den von uns entwickelten Blended Learning Lehrgängen, die wir an verschiedenen Standorten anbieten. Weitere Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.

Artificial Intelligence Index Report 2023

Alle sprechen und schreiben über Künstliche Intelligenz (KI) – oder englischsprachig Artificial Intelligence (AI) -wobei vieles auch bewusst tendenziell dargestellt wird. Die Befürworter schreiben alles schön, und die Gegner alles schlecht, doch dazwischen gibt es noch ein Kontinuum von Möglichkeiten. So eine differenzierte Betrachtung findet man oftmals nur in wissenschaftlichen Veröffentlichungen. Beispielsweise haben verschiedene Autoren den Artificial Intelligence Index Report 2023 veröffentlicht, der viele verschiedene Perspektiven auf das Thema beleuchtet.

Quelle: Nestor Maslej, Loredana Fattorini, Erik Brynjolfsson, John Etchemendy, Katrina Ligett, Terah Lyons, James Manyika, Helen Ngo, Juan Carlos Niebles, Vanessa Parli, Yoav Shoham, Russell Wald, Jack Clark, and Raymond Perrault, “The AI Index 2023 Annual Report,” AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, April 2023 | PDF.

Der Report enthält 10 Takeaways:
1Industry races ahead of academia.
2Performance saturation on traditional benchmarks.
3AI is both helping and harming the environment.
4The world’s best new scientist … AI?
5The number of incidents concerning the misuse of AI is rapidly rising.
6The demand for AI-related professional skills is increasing across virtually every American industrial sector.
7For the first time in the last decade, year-over-year private investment in AI decreased.
8While the proportion of companies adopting AI has plateaued, the companies that have adopted AI continue to pull ahead.
9Policymaker interest in AI is on the rise.
10Chinese citizens are among those who feel the most positively about AI products and services. Americans … not so much.
ebd. Seiten 3-4.

Wir befassen uns aktuell auch mit dem Möglichkeiten, KI im Projektmanagement einzusetzen. Dabei testen wir gerade speziell die Nutzung von ChatGPT im klassischen, plangetriebenen Projektmanagement. Siehe dazu auch Motivationsfaktoren und Fragen für den Einstieg in das Thema Künstliche Intelligenz (KI).

In den von uns entwickelten Blended Learning Lehrgängen Projektmanager/in (IHK) und Projektmanager/in AGIL (IHK) gehen wir auf diese Zusammenhänge ein. Informationen zu den Lehrgängen und zu Terminen finden Sie auf unserer Lernplattform.