Come funziona l’analisi delle immagini nella gestione dei contratti?

In questo articolo illustreremo i principali elementi costitutivi dell’intelligenza artificiale di DiliTrust, al fine di demistificare e rendere più concreto il lavoro del nostro team di Data Scientist. L’articolo si rivolge a un pubblico inesperto, desideroso di comprendere meglio alcune tecniche di intelligenza artificiale.

Nel processo di analisi dei contratti sviluppato da DiliTrust, spesso tutto inizia con l’analisi delle immagini. Infatti, la maggior parte dei documenti che trattiamo sono documenti scansionati in cui il testo non è direttamente accessibile. È quindi necessario passare attraverso una fase di analisi delle immagini, il cui scopo è quello di risolvere i seguenti problemi:

  • estrarre il testo dalle immagini (Optical Character Recognition o OCR),
  • estrarre elementi visivi importanti come iniziali, firme o timbri,
  • capire l’ordine di lettura del documento, particolarmente necessario per i documenti a più colonne.

Sebbene questi compiti possano sembrare sostanzialmente diversi, in realtà richiedono tecniche di analisi simili.

Per saperne di più sulle tecniche di analisi e sulle loro applicazioni pratiche nella gestione dei contratti, consultate questo articolo.

Come si analizza visivamente un contratto?

Le tecniche di analisi delle immagini che utilizziamo in DiliTrust si basano su reti neurali il cui scopo è quello di estrarre rappresentazioni interessanti, o caratteristiche, che possono poi essere utilizzate per risolvere un problema concreto.

Per continuare, immaginiamo di voler sapere se il nostro contratto è stato firmato:

Innanzitutto, che cos’è un’immagine dal punto di vista della rete neurale?
Quando vediamo un contratto, la rete vede un’enorme matrice di numeri, una matrice. Ogni cella di questa matrice contiene 3 valori, corrispondenti all’intensità dei colori rosso, verde e blu di ogni pixel dell’immagine. Questa matrice contiene diversi milioni di celle.

Questa rappresentazione non è molto adatta per dedurre se il nostro contratto contiene o meno una firma. Per questo, dobbiamo analizzare la nostra immagine su una scala più ampia, per trovare aree di interesse che raggruppano diversi pixel. In altre parole, dobbiamo creare collegamenti tra le diverse parti della nostra immagine.

Per farlo, utilizziamo le cosiddette reti neurali convoluzionali. Un filtro di convoluzione può essere visto come una finestra che scorre sull’immagine iniziale, la nostra grande matrice, ed esegue operazioni matematiche su tutti i pixel contenuti in questa finestra. In questo modo, il filtro estrae informazioni a livello locale dai vari pixel contenuti nella finestra.

Questi filtri sono sempre stati utilizzati nell’analisi delle immagini, anche prima delle reti neurali. Infatti, possono essere utilizzati per sfocare un’immagine, individuare i contorni o migliorare la nitidezza, semplicemente modificando i parametri che compongono il filtro. L’esempio seguente mostra il risultato di una convoluzione, che consiste semplicemente nel fare la media dei pixel intorno a una determinata posizione. Si può notare che, con l’aumentare delle dimensioni dell’intorno, l’immagine diventa più sfocata.

I recenti progressi nell’analisi delle immagini mediante reti neurali convoluzionali derivano dal fatto che i filtri di convoluzione vengono ora appresi dal modello durante una fase di addestramento. I filtri ottenuti sono quindi, in teoria, i più adatti al compito su cui il modello è stato addestrato. Tuttavia, a fronte di un guadagno in termini di prestazioni, si perde in termini di interpretabilità. Infatti, i filtri così appresi hanno un effetto più difficile da interpretare rispetto a quelli che siamo riusciti a presentare.

Analisi delle immagini nella gestione dei contratti

OCR

L’OCR è il processo di individuazione ed estrazione di tutte le parole e le lettere contenute in un’immagine. È un passaggio essenziale quando si desidera estrarre e analizzare le informazioni testuali contenute in un contratto. In DiliTrust, utilizziamo il nostro mattone OCR per :

  • Indicizza automaticamente il contenuto dei vostri contratti per fornirvi un potente motore di ricerca,
  • Analizzate ed estraete il contenuto dei vostri contratti per ricavarne gli elementi più importanti, come le parti del contratto, la data di scadenza, il periodo di preavviso o alcune clausole (forza maggiore, responsabilità, ecc.).

Analisi della struttura del documento

Un contratto non è sempre solo una successione di clausole e il suo formato può variare notevolmente da un’azienda all’altra. Esistono molte varianti possibili nella struttura dei contratti: multi-colonna, tabella, modulo… Per offrire un’analisi il più possibile robusta, abbiamo sviluppato il nostro mattone di analisi della struttura dei documenti per :

  • migliorare le fasi di analisi ed estrazione, particolarmente sensibili alla qualità del testo;
  • individuare potenziali aree di interesse (tabelle, intestazioni, piè di pagina, ecc.) e ignorarle o, al contrario, cercare informazioni specifiche.

Estrazione della firma

Un contratto diventa valido solo dopo che è stato firmato, quindi questa è spesso una delle prime cose che i clienti di DiliTrust cercano di controllare. Oltre alle firme, la nostra intelligenza artificiale è in grado di rilevare le iniziali e gli elementi scritti a mano di un contratto per identificare rapidamente eventuali cancellature e correzioni.

Volete parlare con uno dei nostri esperti?