GenAI für Full Stack EntwicklerInnen: RAG Evaluation mit TypeScript (Teil 3)

3.7.2024 | 15 Minuten Lesezeit

Disclaimer: Dieser Artikel ist Teil einer Serie. Lies am besten zuerst Teil 1 und Teil 2, um auf dem neuesten Stand zu sein.

In der traditionellen Softwareentwicklung sind Tests ein essenzieller Bestandteil. Wir nutzen E2E-Tests, Unit- und Integrationstests, Security-Scans und andere Methoden, um sicherzustellen, dass das Produkt unseren Ansprüchen entspricht. Selbstverständlich gibt es auch im GenAI-Umfeld ähnliche Ansätze, die sich jedoch als etwas komplexer erweisen. Da wir es hier mit nicht-deterministischen Systemen zu tun haben, ist ein simpler Unit-Test oft wenig aussagekräftig. Mal antwortet das LLM mit X, mal mit Y. Gerade deshalb ist die strukturierte Evaluierung eines RAG-Systems ein Schritt, den wir gehen müssen (und wollen). Letztendlich wirst du auch als Full-Stack-EntwicklerIn stets testen, testen und nochmals testen.

Im Folgenden beschreibe ich verschiedene Metriken und ihre konkrete Implementierung, um zu zeigen, wie sich letztendlich doch verlässliche Zahlen an ein RAG-System koppeln lassen. Daraufhin nutzen wir dieses Wissen, um herauszufinden, welche Stellschrauben für unser aktuelles RAG die wichtigsten sind. Wir werden das System schrittweise verbessern und überprüfen, ob sich wirklich etwas verbessert hat. Das Ganze wird Full-Stack-freundlich in TypeScript entwickelt, mit so vielen frei verfügbaren Tools wie möglich. Mit diesem Ansatz werden wir unserem RAG letzten Endes vielleicht sogar entlocken können, was wir in unserem Kontext denn nun wirklich als ollama verstehen.

Voraussetzungen

Um diesem Artikel folgen zu können, kannst du ganz einfach das Github-Repo klonen. Im evaluations-Ordner findest du alle Dateien des heutigen Themas. Die modifizierte RAG-Pipeline kannst du dann mit yarn serve-for-evaluation ausführen.

Leider kommen wir dieses Mal nicht ganz ohne einen Internetzugang aus. Um Antworten unseres RAGs zu bewerten, werden üblicherweise LLMs verwendet, und wir könnten versuchen, das lokal abzubilden. Doch ich habe die Erfahrung gemacht, dass unser bisheriges Llama3 das nicht ausreichend zuverlässig schafft. Deshalb empfehle ich die Nutzung eines möglichst kompetenten Modells, in unserem Fall eine auf Azure gehostete OpenAI-Instanz. Das hat zusätzlich den Vorteil, dass wir unsere Testdaten ebenso mit ChatGPT generieren können und nicht allzu viel manuelle Vorarbeit benötigen. Wie du eine Azure OpenAI-Instanz einrichtest, findest du in der Azure Dokumentation.

Für die Konfiguration von LangChain musst du nun eine Datei azure.env ins Projektverzeichnis ablegen mit den folgenden Informationen:

1export AZURE_OPENAI_API_INSTANCE_NAME=<AZURE_REGION>  
2export AZURE_OPENAI_API_DEPLOYMENT_NAME=<AZURE_DEPLOYMENT>  
3export AZURE_OPENAI_API_KEY=<AZURE_AUTH_KEY>
4export AZURE_OPENAI_API_VERSION="2024-02-01"  
5export AZURE_OPENAI_BASE_PATH=https://<AZURE_DOMAIN>/openai/deployments

Wie wird ein RAG evaluiert?

Die grundsätzliche Idee für die Evaluierung eines RAGs ist, auf Basis der Eingabe, der Antwort, des Kontextes und einer Idealantwort (im Englischen als „Ground Truth" bekannt), verschiedene Metriken zu messen. Da RAGs meist Text ausgeben und die Bewertung von Text auf deterministische Weise relativ schwierig ist, nutzt man hier wiederum ein LLM (LLM-as-a-judge). Diese sind schließlich auf Texterfassung spezialisiert.

Was wollen wir eigentlich herausfinden?

Bevor wir mit dem Testen anfangen, sollten wir darüber nachdenken, was wir überhaupt wissen wollen. In unserem minimalen Fall habe ich gleich mehrere Ansätze, über die ich gerne weitere Details wissen möchte:

Sind die Antworten des RAGs faktisch korrekt?
Nutzt das RAG ausschließlich Antworten aus der Wissensdatenbank?
Wie konkret (oder relevant) sind die Antworten für die gestellte Frage?

Zusätzlich habe ich auch noch ein paar Bonusanforderungen, die ich gerne überprüfen und verbessern möchte. Mir ist aufgefallen, dass das RAG meistens auf Englisch antwortet, selbst wenn ich eine Frage auf Deutsch gestellt habe. Außerdem ist das System verhältnismäßig langsam, vielleicht gibt es ja eine Konfiguration, mit der wir schneller bessere Antworten generieren lassen können?

Sind die Antworten in der richtigen Sprache?
Wie schnell antwortet das RAG?

Sinnvolle Metriken für unser RAG

Glücklicherweise sind wir nicht die Ersten, die die Qualität eines RAGs evaluieren möchten. Ein beliebtes Framework hierfür ist Ragas. Dort werden verschiedene qualitative Metriken beschrieben, von denen wir einige gebrauchen können. Die folgenden Ansätze werden wir heute implementieren:

Answer Relevance: Hierbei wird gemessen wie relevant die Antworten des RAGs für die Frage sind. Um das zu evaluieren, bedarf es eines gewissen Aufwands. Zunächst werden von der RAG-Antwort mithilfe eines LLMs künstlich Fragen generiert. Diese werden dann mit der Originalfrage verglichen. Das Vergleichen können wir mit der Vektorenähnlichkeit beider Embeddings erreichen. Sind die Antworten des RAGs ausreichend präzise sollten auch die daraus generierten Fragen näher an der Originalfrage liegen.
Faithfulness: Wie gut hat das RAG den Kontext genutzt, um die Antwort zu generieren? Der Ansatz, um das zu testen, ist, zuerst eine Reihe von Aussagen von der RAG-Antwort zu generieren. Das kann ebenso mithilfe von ChatGPT geschehen. Als nächstes wird dann jede Aussage mit dem Kontext aus der Wissensdatenbank verglichen, um herauszufinden, ob sie allein vom Kontext her abgeleitet werden kann. Das Verhältnis von "erschwindelten" zu korrekt abgeleiteten Aussagen ist dann der Faithfulness-Faktor.

Unsere zusätzlichen Messungen können wir wie folgt bemessen:

Sprachloyalität: Die Konsistenz von Frage- und Antwortsprache können wir einfach mit ChatGPT überprüfen lassen.
Zeit: Noch einfacher lassen sich Anfrage- und Antwortszeit mit TypeScript messen.

Evaluierung von RAGs mit TypeScript

Leider gibt es Stand Juni 2024 keine generischen RAG-Evaluierungstools für TypeScript-Projekte. Die beiden wichtigsten Frameworks für RAGs, LlamaIndex und LangChain, bieten aber wenigstens ein paar rudimentäre Helferfunktionen, mit denen sich für das jeweilige Framework Tests entwickeln lassen. Eine „opinionated" Implementierung unabhängig von der genutzten Bibliothek, wie z.B. Ragas für Python, gibt es jedoch noch nicht. Daher sind wir gezwungen, einige der komplexeren Metriken selbst zu schreiben. Der Ablauf unseres Evaluierungsprozesses ist wie folgt:

Testfragen & Idealantworten erstellen und manuell überprüfen
Das RAG mit diesen Fragen füttern und dessen Antworten plus den genutzten Kontext dokumentieren
Auf Basis dieser Daten die Metriken anwenden
Die Metriken auswerten und vergleichen
Das RAG-System anpassen und erneut Testantworten generieren

Ablauf einer RAG Evaluation

Testfragen generieren

Für alle oben genannten Metriken benötigen wir zunächst einen Datensatz an Fragen und Antworten. Immerhin ist das beantworten von Fragen genau jene Fähigkeit unseres RAGs deren Qualität wir bemessen wollen. Um diese zu bekommen, gibt es verschiedene Ansätze. Die höchste Qualität erreicht man sicher durch einen manuellen Prozess, indem händisch Frage-Antwort Paare auf Basis der Wissensdatenbank geschrieben werden. Zudem gibt es ein paar (mal wieder nur in Python entwickelte) Tools, um solche Fragen automatisch zu generieren. Ein guter Kompromiss für mich ist die Nutzung von ChatGPT. Mit dem folgenden Prompt habe ich 10-20 Fragen automatisch generieren lassen. Für einen vollwertigen Test wäre das zwar ein recht kleiner Datensatz, aber so bekommen wir ausreichend Informationen und müssen später nicht allzu lange warten.

1Deine Aufgabe ist es, genau 10 Fragen aus dem gegebenen Kontext zu formulieren und die Antwort zu jeder Frage zu geben.
2
3Beende jede Frage mit einem '?' Zeichen.
4Die Antwort sollte im JSON-Format mit den Feldern question und groundTruth angegeben werden.
5
6Die Fragen müssen die unten aufgeführten Regeln erfüllen:
71. Die Fragen sollten für Menschen auch ohne den gegebenen Kontext verständlich sein.
82. Die Fragen sollten vollständig aus dem gegebenen Kontext beantwortet werden.
93. Die Fragen sollten sich aus einem Teil des Kontexts ergeben, der wichtige Informationen enthält. Dies kann auch aus Tabellen, Code usw. stammen.
104. Die Antworten auf die Fragen dürfen keine Links enthalten.
115. Die Fragen sollten von mittlerem Schwierigkeitsgrad sein.
126. Die Fragen müssen vernünftig sein und von Menschen verstanden und beantwortet werden können.
137. Verwende keine Formulierungen wie „angegebener Kontext“ usw. in den Fragen.
148. Vermeide Fragen mit dem Wort "und", die in mehr als eine Frage aufgeteilt werden könnten.
159. Die Fragen sollten nicht mehr als 10 Wörter enthalten. Verwende wenn möglich Abkürzungen.
1610. Die Fragen und Antworten sollten auf Deutsch sein.
17
18Kontext:
19...

Das habe ich mit mehreren der Dokumente gemacht und letztlich alle Ergebnisse in die Datei evaluations/data/questions.json kopiert. Diese Fragen sollten aber dennoch einmal manuell durchgesehen werden, um schlechte oder falsch in den Kontext gesetzte Fragen herauszufiltern.

Frag das RAG!

Der nächste Schritt ist die aktuelle Konfiguration des RAGs zu testen. Hierfür senden wir einfach die zuvor gespeicherten Fragen nacheinander an das System. Da wir für unsere Metriken später auch den Retrieval-Kontext benötigen, speichern wir diesen ebenso ab. Auch unsere Zeitmessung muss schon jetzt erfolgen. Im Projekt ausführen kannst du den folgenden Code mit yarn generate-test-data <szenarioName> ausführen.

1async function generateTestData() {  
2  const questions = getQuestionsFromFile()  
3  const chain = await initializeRagChain("./data")  
4  const testData = []  
5  
6  for (const { question, groundTruth } of questions) {  
7    console.log("Requesting answer for question: " + question)  
8    const start = Date.now()  
9    const { answer, context } = await chain.invoke(question)  
10    const end = Date.now()  
11  
12    testData.push({  
13      question,  
14      answer,  
15      groundTruth,  
16      context,  
17      executionTimeInSeconds: (end - start) / 1000,  
18    })  
19  }  
20  writeTestResultToFile(datasetName, testData)  
21}

Das Ergebnis wird dann in evaluations/data/test-data-<szenarioName>.json abgespeichert und sieht dann ungefähr so aus:

1{  
2    "question": "Welche Portnummer nutzt das Open WebUI Interface?",  
3    "groundTruth": "3000",  
4    "answer": "Das Open WebUI Interface wird auf Port 3000 erreichbar sein.",  
5    "context": "System erst einmal nur lokal hoste. Für komplexere Setups ist das\nnatürlich nicht geeignet.\n...",  
6    "executionTimeInSeconds": 3.702  
7  }

Die Zwischenspeicherung unserer Ergebnisse hilft uns später nachzuvollziehen, wie genau ein Metrikwert zustande gekommen ist. Vielleicht war eine Frage nicht gut gestellt oder der Kontext völlig daneben?

Evaluierung des RAGs in TypeScript

Jede unserer Metriken erhält die für sie relevanten Informationen und gibt am Ende einen Wert zwischen 0 und 1 zurück. Je näher der Wert an 1 liegt, desto besser ist die Performance des RAGs in Bezug auf diese spezifische Metrik.

LanguageLoyalty

Die einfachste Metrik ist die Konsistenz der Sprache. Hier können wir einfach einen Custom-Evaluator von LangChain nutzen und ihm mitteilen, welche Fragestellung wir überprüfen wollen.

1async function evaluateLanguageLoyalty({ question, answer }) {  
2  const criteria = {  
3    languageLoyalty: "Is the output in the same language as the input?",  
4  }  
5  const evaluator = await loadEvaluator("criteria", {  
6    criteria,  
7  })  
8  const languageResult = await evaluator.evaluateStrings({  
9    input: question,  
10    prediction: answer,  
11  })  
12  return languageResult.score  
13}

Das Ergebnis von evaluateStrings beinhaltet auch noch ein Feld reasoning, das die Begründung von ChatGPT für seine Entscheidung enthält. Falls eine Bewertung unklar ist, empfehle ich, dort einmal nachzuschauen.

Faithfulness

Schon etwas komplexer wird es bei „Faithfulness". Um herauszufinden wie viele der Aussagen einer möglicherweise langen Antwort halluziniert wurden versuchen wir mithilfe von ChatGPT einige Aussagen zu extrahieren, die auf die gegebene Antwort anwendbar sind. Wir lassen ChatGPT die Fragen mit einem eindeutigen Trennzeichen (XXX) separieren, um es später einfacher zu haben, die einzelnen Fragen zu extrahieren.

1async function generateMinimalStatementsFromAnswer(answer: string) {  
2  const model = new AzureChatOpenAI()  
3  const response = await model.invoke(  
4    `Generate 5 minimal statements which can be directly derived from the following context. Separate each statement only with 'XXX'. The statements should be as clear as possible. \n CONTEXT:\n ${answer}`,  
5  )  
6  return response.content.toString().split("XXX")  
7}

Für die Antwort Der Retriever wird durch das initialisierte VectorStore generiert. generiert ChatGPT folgende Aussagen:

Der Retriever wird generiert.
Der Retriever wird durch VectorStore generiert.
Das VectorStore ist initialisiert.
Ein initialisiertes VectorStore ist erforderlich.
Der Retriever benötigt das initialisierte VectorStore.

Mit diesen fünf Sätzen können wir nun wiederum einen LangChain Evaluator nutzen, um herauszufinden, welche der Aussagen aus dem Kontext ableitbar waren. Von den einzelnen Scores (entweder 0 oder 1) errechnen wir anschließend den Durchschnittswert.

1async function evaluateFaithfulness({ answer, context }) {  
2  const statements = await generateMinimalStatementsFromAnswer(answer)  
3  const criteria = {  
4    faithfulness:  
5      "Can the following statement directly be derived from the input?",  
6  }  
7  const evaluator = await loadEvaluator("criteria", { criteria })  
8  let results = []  
9  for (const statement of statements) {  
10    const faithfulness = await evaluator.evaluateStrings({  
11      input: context,  
12      prediction: statement,  
13    })  
14    results.push(faithfulness.score)  
15  }  
16  return average(results)  
17}

Relevanz

Ähnlich wie bei der vorherigen Metrik müssen wir auch für die Relevanz zunächst ein paar synthetische Daten erheben. Dieses Mal lassen wir ChatGPT allerdings 10 Fragen generieren, die seiner Meinung nach auf die gegebene Antwort passen könnten. Dann erstellen wir einen EmbeddingEvaluator mit LangChain und konfigurieren ihn so, dass er mit einem lokalen Embedding kommuniziert. Dadurch können wir uns etwas Zeit sparen. Auch hier geben wir abschließend den durchschnittlichen Wert der errechneten Ähnlichkeit zurück.

1async function evaluateRelevance({ question, answer }) {  
2  const questions = await generateQuestionsFromAnswer(answer)  
3  const evaluator = await loadEvaluator("embedding_distance", {  
4    embedding: new OllamaEmbeddings({  
5      model: "jina/jina-embeddings-v2-base-de",  
6    }),  
7  })  
8  const relevances = []  
9  for (const syntheticQuestion of questions) {  
10    const relevance = await evaluator.evaluateStrings({  
11      prediction: syntheticQuestion,  
12      reference: question,  
13    })  
14    relevances.push(relevance.score)  
15  }  
16  return average(relevances)  
17}

Die Metriken kombinieren

Die oben gezeigten Metriken können wir nun mit yarn evaluate <szenarioName> über unsere generierten Testdaten laufen lassen. Da hierbei einige Anfragen an ChatGPT gestellt werden, kann dieser Schritt je nach Datensatz mehrere Minuten dauern. Um die Nachvollziehbarkeit zu gewährleisten, empfehle ich, auch hier die genutzten Kontextinformationen wie Frage, Antwort etc. zu speichern. Nebenbei erfassen wir ebenfalls die zuvor erstellte executionTime.

1async function evaluate () {  
2  const testData = getTestResultFromFile(datasetName)  
3  const evaluationResults = []  
4  for (const dataSet of testData) {  
5    console.log(`Evaluation for: ${dataSet.question}`)  
6    const relevance = await evaluateRelevance(dataSet)  
7    const languageLoyalty = await evaluateLanguageLoyalty(dataSet)  
8    const faithfulness = await evaluateFaithfulness(dataSet)  
9    evaluationResults.push({  
10      relevance,  
11      languageLoyalty,  
12      faithfulness,  
13      executionTime: dataSet.executionTimeInSeconds,  
14      question: dataSet.question,  
15      answer: dataSet.answer,  
16      context: dataSet.context,  
17      groundTruth: dataSet.groundTruth,  
18    })  
19  }  
20  writeEvaluationResultToFile(datasetName, evaluationResults)  
21}

Ein mögliches Ergebnis könnte dann wie folgt Aussehen:

1{  
2  "relevance": 0.08137573866625877,  
3  "languageLoyalty": 1,  
4  "faithfulness": 1,  
5  "executionTime": 3.702,  
6  "question": "Welche Portnummer nutzt das Open WebUI Interface?",  
7  "answer": "Das Open WebUI Interface wird auf Port 3000 erreichbar sein.",  
8  "context": "System erst einmal nur lokal hoste. Für komplexe...",  
9  "groundTruth": "3000"  
10}
11...

Auswertung der Ergebnisse

Zur Bewertung der Qualität des Systems können wir nun einen Testlauf starten. Mit averageOfField nutzen wir einen kleinen Helfer, der von einer Liste aus Objekten die Werte aus dem übergebenen Feld holt und den Durchschnitt ermittelt.

1const evaluationResults = getEvaluationResultFromFile(datasetName)  
2const critiques = [  
3  "executionTime",  
4  "relevance",  
5  "languageLoyalty",  
6  "faithfulness",  
7]  
8critiques.forEach((criteria) => {  
9  const average = averageOfField(criteria, evaluationResults)  
10  console.log(`${criteria}: ${average.toFixed(3)}`)  
11})

Ausgeführt mit yarn summarize <szenarioName> sieht das Ergebnis für die Konfiguration von Artikel 2 dann wie folgt aus:

1executionTime: 6.827
2relevance: 0.411
3languageLoyalty: 0.444
4faithfulness: 0.656

Iterative Optimierung des RAG Systems

Wir sind endlich so weit, herauszufinden, wie gut unser bisheriges RAG abschneidet. Das Problem mit den Werten ist natürlich, dass sie für sich allein wenig Aussagekraft haben. Um das zu ändern, können wir nun einige der Stellschrauben des letzten Artikels anwenden. Anschließend lässt sich bewerten, welche Anpassung eine Verbesserung gebracht hat und welche sich vielleicht nicht lohnt. Wir testen die folgenden Szenarien nacheinander. Am Ende wenden wir alle drei Szenarien gleichzeitig an und schauen uns das Ergebnis an.

Embedding: Statt nomic-embed-text versuchen wir es mit dem für die deutsche Sprache ausgelegten jina/jina-embeddings-v2-base-de.
Prompt: Unser erster Prompt war sehr einfach gehalten. Vielleicht erzielen wir bessere Ergebnisse mit einem Prompt, der gleichzeitig die Sprachkonsistenz fordert? Wir versuchen es mit:

You are an expert in computer science. 
Answer the question based only on the following context. 
Always answer in the same language as the question. 
Answer concise and accurate.

Chunks: Durch kleinere Text-Chunks bei der Vektorisierung könnten wir schneller und gleichzeitig genauer werden. Anstatt des Default-Werts von "1 PDF-Seite" werden wir eine Chunk-Größe von 500 testen.

Die Testläufe haben folgende Tabelle hervorgebracht:

Szenario	Time	Relevance	Language	Faithfulness
Start	6.82	0.41	0.44	0.66
Embedding	7.15	0.45	0.44	0.82
Prompt	6.66	0.49	0.611	0.711
Chunks	4.80	0.33	0.611	0.77
Kombination	3.97	0.36	0.89	0.733

Bei der Änderung des Embeddings lassen sich erste Zeitverbesserungen messen, auch wenn diese marginal sind. Dafür scheint jedoch die Vertrauenswürdigkeit des Systems deutlich besser zu sein. Das ist auch verständlich, denn mit einem besseren Embedding sollte auch das "Textverständnis" höher sein.

Die Anpassung des Prompts hingegen hat vor allem die Sprachkonsistenz erhöht. Auch dies sorgt für zusätzliches Vertrauen in unser Test-Setup, denn die erwarteten Änderungen spiegeln sich in der Statistik wider.

Beim Textsplitting wird das System zwar merklich schneller, verliert aber gleichzeitig an Relevanz. Hier können wir als EntwicklerInnen nun entscheiden, welche Prioritäten wir setzen wollen – auf der Basis von klaren Zahlen. ❤️

Die Kombination aller Anpassungen hat überraschenderweise eine noch bessere Geschwindigkeit, zeigt aber leider keine nennenswert höhere Relevanz. Immerhin schafft sie es, die Sprache deutlich konsistenter zu halten als die anderen Kombinationen.

Diese Konfiguration habe ich letztlich für das RAG genutzt und dieses nach Ollama befragt. Dabei kam heraus, dass Ollama eine Webseite und ein CLI sei. Was, wie ich es im ersten Artikel vorgestellt habe, wohl der Wahrheit ausreichend nahe kommt. Zudem kam die Antwort dieses Mal auf Deutsch!

Die zentrale Frage musste gestellt werden

Was nun?

Auf der Basis der vorgestellten Metriken lässt sich unser RAG nun deutlich einfacher messbar machen. Wir stellen konkrete Änderungen in der Statistik fest, wenn wir Anpassungen am System vornehmen, und können nun iterativ herausfinden, welcher Ansatz die Ausgabe positiv beeinflusst. Falls du Interesse an weiteren, spezialisierteren Metriken hast, schau dir zum Beispiel die Context Recall- und die Context Relevancy-Metrik an. Beide versuchen die Qualität des Retrievers messbar zu machen. Auch weitere sogenannte Critique-Metriken, wie das Erfassen von schadhaften oder boshaften Ausgaben, sind denkbar. Es gibt auch bessere Tests für die Qualität des LLM-Outputs, wie zum Beispiel die Conciseness-Metrik. Wie du dir vorstellen kannst, hängt die Wahl der Metriken stark vom Use Case des RAGs ab.

Unsere Reise als Full-Stack-EntwicklerInnen in die Welt der generativen KI ist hier aber erst am Anfang. Wir sind mittlerweile in der Lage, Sprachmodelle lokal zu nutzen, sie mit unserem privaten Kontext zu füttern und zu evaluieren, ob sie dabei gute Arbeit leisten. Doch ob mit oder ohne Kontext – derzeit sind unsere Modelle nicht viel mehr als Textgeneratoren. Diese Texte sind oft unstrukturiert und wenig vorhersehbar. Verlässliche Systeme oder gar die Einbindung in ein komplexeres Interface ist damit noch nicht möglich. Wie wir die Stärken eines LLMs außerhalb eines Chat-Interfaces nutzen können, dessen Antwort als zuverlässiges API-Interface nutzen und damit herkömmliche UI-Workflows ablösen können bespreche ich im nächsten Artikel. Ich freue mich schon darauf!

War dieser Beitrag hilfreich?

Beitrag teilen

Blog-Autor*in

Robin Schlenker

Full Stack Consultant

Du hast noch Fragen zu diesem Thema? Dann sprich mich einfach an.

Weitere Beiträge

von Robin Schlenker

GenAI für Full Stack EntwicklerInnen - Agent Chi PiTie (Teil 5)

Künstliche Intelligenz ist heutzutage in aller Munde. Die Einsatzgebiete sind vielfältig, der "WOW-Faktor" immer gegeben und das Potenzial noch lange nicht ausgeschöpft. Wo wir heute in vielen Bereichen schon unsere früheren Erwartungen übertroffen ...

LLM
Generative KI
Künstliche Intelligenz

20.8.2024 | 13 Minuten Lesezeit

Robin Schlenker

GenAI für Full Stack EntwicklerInnen: Sprachverständnis als User Interface...

Ein gutes User Interface zu designen und umzusetzen, ist schwierig. Wir als Full Stack EntwicklerInnen wissen nur zu gut, dass der Teufel im Detail steckt. Einmal ist die Animation schlecht getimed, ein Input schiebt sich über den nächsten, ein Bild...

Künstliche Intelligenz
Generative KI
LLM

18.7.2024 | 12 Minuten Lesezeit

Robin Schlenker

GenAI für Full Stack EntwicklerInnen: Der erste echte Use Case (Teil 2...

Disclaimer: Dieser Artikel ist Teil einer Serie, wenn du den ersten Teil noch nicht gelesen hast dann findest du ihn hier. Nachdem wir beim letzten Mal einen ersten Kontakt mit Open Source LLMs hatten, geht es heute endlich ans Codieren! Die Chatbots...

Künstliche Intelligenz
LLM
Generative KI

24.6.2024 | 10 Minuten Lesezeit

Robin Schlenker

GenAI für Full Stack EntwicklerInnen: Aller Anfang ist... lokal? (Teil...

Als Full Stack EntwicklerIn gibt es heutzutage wohl genug Themenkomplexe zur Einarbeitung. Ob das nächste Frontend-Framework des Jahres, die neue Backend-Technologie, ein weiterer Security-Scanner oder doch nur eine weitere Cloud-Integration: Die Auswahl...

LLM
Künstliche Intelligenz
Generative KI

14.6.2024 | 7 Minuten Lesezeit

Robin Schlenker

Dein Job bei codecentric?

Jobs

Agile Developer und Consultant (w/d/m)

Alle Standorte

Vibe coding – Was nun?

Kann man mit KI wirklich Anwendungen erzeugen, ohne selbst coden zu können, mit einem Bruchteil des Aufwands und der Zeit? "Gib dich dem Vibe hin! Erstelle Software nur mit natürlicher Sprache! GenAI ist der Builder. Hör auf, dich zu beschweren und fang...

Künstliche Intelligenz
Generative KI

12.4.2025 | 9 Minuten Lesezeit

Goetz Markgraf

Open Source trifft Milliardenmarkt: DeepSeek-R1 mischt die KI-Welt auf

Am 27. Januar 2025 erlebte die Technologiebörse einen unerwarteten Einbruch: Der NVIDIA-Aktienkurs fiel um über 17%, wodurch der Konzern zeitweilig fast 600 Milliarden US-Dollar an Börsenwert verlor und damit einen neuen historischen Rekord am Aktienmarkt...

Künstliche Intelligenz
Generative KI
LLM

29.1.2025 | 8 Minuten Lesezeit

Daniel Ladischenski

Wie wir eine KI mit wenigen Worten hacken können

Wie wir eine KI mit wenigen Worten hacken können Künstliche Intelligenz (KI) hat in den letzten Jahren einen erstaunlichen Wandel durchgemacht und ist mittlerweile in vielen Lebensbereichen präsent. Ob in Form von Chatbots, die uns bei alltäglichen Fragen...

IT-Security
Künstliche Intelligenz

27.1.2025 | 4 Minuten Lesezeit

Mehmet Avci

GenAI für Full Stack EntwicklerInnen - Agent Chi PiTie (Teil 5)

LLM
Generative KI
Künstliche Intelligenz

20.8.2024 | 13 Minuten Lesezeit

Robin Schlenker

GenAI für Full Stack EntwicklerInnen: Sprachverständnis als User Interface...

Künstliche Intelligenz
Generative KI
LLM

18.7.2024 | 12 Minuten Lesezeit

Robin Schlenker

GenAI für Full Stack EntwicklerInnen: Der erste echte Use Case (Teil 2...

Künstliche Intelligenz
LLM
Generative KI

24.6.2024 | 11 Minuten Lesezeit

Robin Schlenker

GenAI für Full Stack EntwicklerInnen: Aller Anfang ist... lokal? (Teil...

LLM
Künstliche Intelligenz
Generative KI

14.6.2024 | 7 Minuten Lesezeit

Robin Schlenker

Eine Einführung in das Thema künstliche Intelligenz für Schülerinnen und...

Die Bedeutung von künstlicher Intelligenz wächst in der heutigen Welt. Doch wie funktioniert KI? Es hat zumindest nichts mit Magie zu tun – auch wenn KI gerne damit assoziiert wird. Normalerweise beantworte ich diese Frage ausführlich bei uns im IT ...

Künstliche Intelligenz

30.1.2024 | 3 Minuten Lesezeit

Meike Wocken

Ersetzt KI die Softwareentwickler?

In meinem letzten Blogartikel habe ich geschrieben, was KI-Tools wie ChatGPT heute schon leisten können, wenn es darum geht, fachliche Anwendungen in ausführbaren Programmcode zu übersetzen. Ich habe erfahren, dass die Ergebnisse zwar noch nicht zu 1...

Künstliche Intelligenz

10.9.2023 | 6 Minuten Lesezeit

Goetz Markgraf

KI-Tools zum Lernen neuer Programmiersprachen: Ein Erfahrungsbericht

Einleitung KI-Tools, die die Arbeit des Softwareentwicklers unterstützen – oder eventuell sogar ganz ersetzen – sorgen im Moment für Schlagzeilen. In diesem Artikel möchte ich einen ganz persönlichen Erfahrungsbericht schreiben, wie es mir erging, als...

Künstliche Intelligenz

4.9.2023 | 8 Minuten Lesezeit

Goetz Markgraf

ChatGPT im Alltag eines Python-Entwicklers

Seit einigen Tagen spiele ich mit ChatGPT herum. Beruflich und privat konnte ich damit einige Fragen bearbeiten, bspw. welche Alternativen es zu bestimmten Tools gibt, was Vorteile von Teilzeit für den Arbeitgeber sind oder wer ich bin. Leider weiß ChatGPT...

NLP
Python
Künstliche Intelligenz

27.1.2023 | 7 Minuten Lesezeit

Robert Meißner

GitHub Copilot – Pair Programming mit der KI

Vor drei Monaten konnte ich zum ersten Mal mit GitHub Copilot von Microsoft auf die Startbahn gehen. Ob der Flug erfolgreich war oder ob ich es gar nicht in die Luft geschafft habe, möchte ich euch einmal berichten. Was ist GitHub Copilot? Der Copilot...

Künstliche Intelligenz
GitHub
Microsoft

6.10.2022 | 8 Minuten Lesezeit

Danny Steinbrecher

Smart DistancR – Perspektivisch korrekte Distanzmessung zwischen Personen

Die Corona-Krise ist weiterhin in aller Munde und wird uns mit hoher Wahrscheinlichkeit noch etwas länger begleiten. Wie man aus unterschiedlichen Statistiken erfährt, schwanken die Fallzahlen weiter und sorgen für zusätzliche Restriktionen. Diese werden...

Computer Vision
Künstliche Intelligenz
IoT
Machine Learning

13.12.2021 | 7 Minuten Lesezeit

Michel Ehmen

Wie man Java-Klassen in Python benutzt

Generell sollte man zwar für jedes Problem das passende Werkzeug nutzen. Aber oftmals wird man gezwungen, den Hammer Java zu nutzen, weil der Rest des Hauses mit diesem Hammer gebaut wurde. Eine moderne Lösung dieses Problems ist natürlich die Microservice...

Künstliche Intelligenz
Java
Python

15.11.2021 | 8 Minuten Lesezeit

Hendrik Schawe

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

Bei klassischen Machine-Learning-(ML-)Projekten beschäftigen sich Data Scientists häufig längere Zeit (mehrere Monate) mit der Entwicklung eines ML-Modells. Dabei werden hohe Kosten verursacht und die Zeit, bis ein erstes Modell zur Verfügung steht, ...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Google Cloud
Machine Learning

17.5.2021 | 5 Minuten Lesezeit

Nils Bauroth

Sven Rediske

Technologien lösen keine Probleme ― es sind die Menschen dahinter

Software zu entwickeln bedeutet, Mehrwert für den Kunden zu schaffen. Zu oft wird hierbei der menschliche Faktor im System missachtet. Stefanie Hasler, Senior Fullstack Developerin bei codecentric, gibt einen kleinen Einblick auf ihre Sicht der Dinge...

Künstliche Intelligenz
Softwareentwicklung
Remote Work
HR
Collaboration
Kultur

22.3.2021 | 6 Minuten Lesezeit

Kathrin Schaugg

Stefanie Hasler

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

Noch vor kurzer Zeit mussten für den Einsatz von künstlicher Intelligenz (KI) unter großem Aufwand eigene KI-Modelle erstellt werden. Heute ist für viele Anwendungsfälle die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken...

Cloud
Computer Vision
Data
Künstliche Intelligenz
Machine Learning
Python

29.7.2020 | 11 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und Konstruktion eigener neuronaler Netze möglich. Heute ist die Einstiegshürde in die Welt der KI durch Cloud-Computing-Dienste stark gesunken. So kann man ...

Cloud
Computer Vision
Data
Python
Machine Learning
Google Cloud
Künstliche Intelligenz

8.7.2020 | 11 Minuten Lesezeit

Nico Axtmann

Marcel Mikl

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

Noch vor kurzer Zeit war der Einsatz von künstlicher Intelligenz (KI) nur mit großem Aufwand und ausreichend Spezialwissen möglich. Hauptsächlich große Internet-Konzerne wie Google, Apple und Facebook hatten das Geld, die Daten und die Expertise, um ...

Data
Machine Learning
Künstliche Intelligenz

6.7.2020 | 7 Minuten Lesezeit

Marcel Mikl

Nico Axtmann

Machine Learning in der Praxis. Eine Mate mit … Matthias Niehoff #EineMateMit

Machine Learning und künstliche Intelligenz sind aktuell in aller Munde und versprechen vielfältige Einsatzmöglichkeiten im Unternehmen. Trotzdem tun sich viele Unternehmen aktuell noch schwer, das Potential der Technologie zu nutzen. „Der Fokus liegt...

Künstliche Intelligenz
Data
Community
Machine Learning

27.5.2020 | 1 Minuten Lesezeit

Matthias Niehoff

Jetzt für unseren Newsletter anmelden

Alles Wissenswerte auf einen Klick:
Unser Newsletter bietet dir die Möglichkeit, dich ohne großen Aufwand über die aktuellen Themen bei codecentric zu informieren.

GenAI für Full Stack EntwicklerInnen: RAG Evaluation mit TypeScript (Teil 3)

Voraussetzungen

Wie wird ein RAG evaluiert?

Was wollen wir eigentlich herausfinden?

Sinnvolle Metriken für unser RAG

Evaluierung von RAGs mit TypeScript

Testfragen generieren

Frag das RAG!

Evaluierung des RAGs in TypeScript

LanguageLoyalty

Faithfulness

Relevanz

Die Metriken kombinieren

Auswertung der Ergebnisse

Iterative Optimierung des RAG Systems

Was nun?

War dieser Beitrag hilfreich?

Blog-Autor*in

Weitere Beiträge

GenAI für Full Stack EntwicklerInnen - Agent Chi PiTie (Teil 5)

GenAI für Full Stack EntwicklerInnen: Sprachverständnis als User Interface...

GenAI für Full Stack EntwicklerInnen: Der erste echte Use Case (Teil 2...

GenAI für Full Stack EntwicklerInnen: Aller Anfang ist... lokal? (Teil...

Dein Job bei codecentric?

Agile Developer und Consultant (w/d/m)

Weitere Artikel in diesem Themenbereich

Vibe coding – Was nun?

Open Source trifft Milliardenmarkt: DeepSeek-R1 mischt die KI-Welt auf

Wie wir eine KI mit wenigen Worten hacken können

GenAI für Full Stack EntwicklerInnen - Agent Chi PiTie (Teil 5)

GenAI für Full Stack EntwicklerInnen: Sprachverständnis als User Interface...

GenAI für Full Stack EntwicklerInnen: Der erste echte Use Case (Teil 2...

GenAI für Full Stack EntwicklerInnen: Aller Anfang ist... lokal? (Teil...

Eine Einführung in das Thema künstliche Intelligenz für Schülerinnen und...

Ersetzt KI die Softwareentwickler?

KI-Tools zum Lernen neuer Programmiersprachen: Ein Erfahrungsbericht

ChatGPT im Alltag eines Python-Entwicklers

GitHub Copilot – Pair Programming mit der KI

Smart DistancR – Perspektivisch korrekte Distanzmessung zwischen Personen

Wie man Java-Klassen in Python benutzt

Schnelles KI-Prototyping mit Google Cloud AutoML Vision

Technologien lösen keine Probleme ― es sind die Menschen dahinter

KI in der Praxis: Fehlerhafte Bauteile mit Rekognition auf AWS identifizieren

KI in der Praxis: Fehlerhafte Bauteile mit AutoML in der Google Cloud ...

KI für KMU: (Teil-)Automatisierung der Qualitätskontrolle von Bauteilen

Machine Learning in der Praxis. Eine Mate mit … Matthias Niehoff #EineMateMit

Jetzt für unseren Newsletter anmelden