Wie funktioniert die Bildanalyse im Vertragsmanagement?

In diesem Artikel werden wir die wichtigsten Bausteine der künstlichen Intelligenz von DiliTrust erläutern, um die Arbeit unseres Data Scientist-Teams zu entmystifizieren und zu konkretisieren. Er richtet sich an Anfänger, die ein besseres Verständnis für bestimmte Techniken der künstlichen Intelligenz erlangen möchten.

In dem von DiliTrust entwickelten Prozess der Vertragsanalyse beginnt oft alles mit der Bildanalyse. Die meisten der von uns bearbeiteten Dokumente sind nämlich gescannte Dokumente, bei denen der Text nicht direkt zugänglich ist. Daher ist es notwendig, eine Bildanalyse vorzunehmen, deren Ziel es ist, die folgenden Probleme zu lösen:

  • Text aus Bildern extrahieren (Optical Character Recognition, OCR),
  • wichtige visuelle Elemente wie Initialen, Unterschriften oder Stempel zu extrahieren,
  • die Lesereihenfolge des Dokuments zu verstehen, was insbesondere bei mehrspaltigen Dokumenten notwendig ist.

Auch wenn diese verschiedenen Aufgaben auf den ersten Blick sehr unterschiedlich erscheinen mögen, erfordern sie doch ähnliche Analysetechniken.

In diesem Artikel erfahren Sie mehr über Analysetechniken und ihre praktischen Anwendungen im Vertragsmanagement.

Wie kann man einen Vertrag visuell analysieren?

Die Bildanalysetechniken, die wir bei DiliTrust verwenden, basieren auf neuronalen Netzen, deren Ziel es ist, interessante Darstellungen oder Merkmale zu extrahieren, die dann zur Lösung eines konkreten Problems verwendet werden können.

Nehmen wir an, wir wollen wissen, ob unser Vertrag unterzeichnet wurde:

Zunächst einmal: Was ist ein Bild aus der Sicht des neuronalen Netzes?
Wenn wir einen Vertrag sehen, sieht das Netz eine riesige Reihe von Zahlen, eine Matrix. Jede Zelle dieser Matrix enthält drei Werte, die der Intensität der roten, grünen und blauen Farbe jedes Pixels im Bild entsprechen. Diese Matrix enthält mehrere Millionen Zellen.

Diese Darstellung ist nicht sehr geeignet, um festzustellen, ob unser Vertrag eine Unterschrift enthält oder nicht. Dazu müssen wir unser Bild in einem größeren Maßstab analysieren, um Bereiche von Interesse zu finden, die mehrere Pixel zusammenfassen. Mit anderen Worten: Wir müssen Verknüpfungen zwischen verschiedenen Teilen unseres Bildes herstellen.

Zu diesem Zweck verwenden wir so genannte neuronale Faltungsnetze. Ein Faltungsfilter kann als ein Fenster betrachtet werden, das über das Ausgangsbild, unsere große Matrix, gleitet und mathematische Operationen an allen in diesem Fenster enthaltenen Pixeln durchführt. Auf diese Weise extrahiert der Filter lokal Informationen aus den verschiedenen im Fenster enthaltenen Pixeln.

Diese Filter wurden schon immer in der Bildanalyse eingesetzt, auch schon vor den neuronalen Netzen. Sie können verwendet werden, um ein Bild unscharf zu machen, Konturen zu erkennen oder die Schärfe zu verbessern, indem einfach die Parameter geändert werden, aus denen der Filter besteht. Das nachstehende Beispiel zeigt das Ergebnis einer Faltung, die einfach darin besteht, den Durchschnitt der Pixel um eine bestimmte Position herum zu bilden. Es ist zu erkennen, dass das Bild mit zunehmender Größe der Umgebung immer unschärfer wird.

Die jüngsten Fortschritte bei der Bildanalyse mit Hilfe von neuronalen Faltungsnetzen beruhen auf der Tatsache, dass die Faltungsfilter nun während einer Trainingsphase vom Modell gelernt werden. Die erhaltenen Filter sind daher theoretisch die am besten geeigneten für die Aufgabe, für die das Modell trainiert wurde. Doch wo wir an Leistung gewinnen, verlieren wir an Interpretierbarkeit. Die auf diese Weise erlernten Filter haben nämlich eine schwieriger zu interpretierende Wirkung als diejenigen, die wir präsentieren konnten.

Bildanalyse im Vertragsmanagement

OCR

OCR ist der Prozess des Auffindens und Extrahierens aller in einem Bild enthaltenen Wörter und Buchstaben. Dies ist ein wesentlicher Schritt, wenn Sie die in einem Vertrag enthaltenen Textinformationen extrahieren und analysieren wollen. Bei DiliTrust verwenden wir unseren OCR-Baustein, um :

  • Automatische Indexierung des Inhalts Ihrer Verträge, um Ihnen eine leistungsfähige Suchmaschine zur Verfügung zu stellen,
  • Analysieren und extrahieren Sie den Inhalt Ihrer Verträge, um die wichtigsten Elemente herauszufiltern, z. B. die Vertragsparteien, das Ablaufdatum, die Kündigungsfrist oder bestimmte Klauseln (höhere Gewalt, Haftung usw.).

Analyse der Dokumentenstruktur

Ein Vertrag ist nicht immer nur eine Aneinanderreihung von Klauseln, und sein Format kann sich von Unternehmen zu Unternehmen stark unterscheiden. Es gibt viele mögliche Variationen in der Struktur von Verträgen: mehrspaltig, Tabelle, Formular… Um eine möglichst robuste Analyse anbieten zu können, haben wir unseren eigenen Baustein zur Analyse der Dokumentenstruktur für :

  • Verbesserung der Analyse- und Extraktionsphasen, die besonders empfindlich auf die Textqualität reagieren;
  • potenziell interessante Bereiche (Tabellen, Kopf- und Fußzeilen usw.) zu erkennen und zu ignorieren oder im Gegenteil nach bestimmten Informationen zu suchen.

Signatur-Extraktion

Ein Vertrag ist erst dann gültig, wenn er unterschrieben ist. Daher ist dies oft eines der ersten Dinge, die die Kunden von DiliTrust überprüfen wollen. Zusätzlich zu den Unterschriften ist unsere KI in der Lage, Initialen und handschriftliche Elemente eines Vertrags zu erkennen, um mögliche Löschungen und Korrekturen schnell zu identifizieren.

Möchten Sie mit einem unserer Experten sprechen?