Strategie predittive, aziende e AI: la rivoluzione passa dall’acquisizione dati da cartaceo.

Oggi l’Intelligenza Artificiale offre alle aziende la possibilità di rendere i sistemi aziendali intrinsecamente più intelligenti ed efficientare i processi e i modelli di business esistenti, in modo dirompente e in maniera trasversale rispetto a tutti i reparti, dagli acquisti al marketing. Ma le potenzialità rivoluzionarie insite nelle soluzioni di AI, in costante e rapidissima evoluzione, rischiano di rimanere inespresse a causa degli ostacoli e delle sfide connesse alla data acquisition.

L’AI, infatti, ha fame di dati. Ma solo fornendo un set di dati ampi e di qualità si può ottenere un data lake adeguato per addestrare l’intelligenza artificiale.

Le fonti dei dati sono tipicamente molto numerose e variegate. E ancor oggi una cospicua mole di informazioni si trova su documentazione cartacea. Una delle prime sfide da affrontare, per imprese di qualsiasi settore, è rappresentata dalla difficoltà di acquisizione dati da documenti cartacei. Anche se la digitalizzazione, incoraggiata peraltro da normative e incentivi statali, dovrebbe essere un processo ben avviato nelle aziende italiane, la realtà dei fatti parla ancora di archivi in gran parte cartacei, magari frammentati e conservati in condizioni non ottimali, con una conseguente complessità nell'estrarre e trasformare tali dati in formati digitali utilizzabili. In moltissime realtà, infatti, persistono forme di resistenza (più o meno esplicite e consapevoli) alla rivoluzione digitale, spesso dovute a vincoli organizzativi o culturali.

Vediamo nel dettaglio le difficoltà che questo implica per l’estrazione dei dati e le soluzioni innovative possibili.

Quali complessità nell’acquisizione di dati da documenti cartacei?

Estrarre informazioni da documenti cartacei e trasformarle in dati digitali per istruire l’intelligenza artificiale è un’operazione complessa per diverse ragioni:

Varietà di formati: i documenti cartacei si presentano in una vasta gamma di formati, dimensioni e strutture, rendendo difficile standardizzare il processo di estrazione dei dati. Questa varietà richiede un approccio flessibile per poter interpretare correttamente le informazioni.
Scrittura manuale e illeggibilità: la scrittura manuale spesso presente nei documenti cartacei può essere di difficile decodifica e interpretazione per gli algoritmi di estrazione automatica.
Deterioramento e macchie: la leggibilità di frammenti di testo può essere compromessa dal deterioramento dei documenti, dallo sbiadimento dell’inchiostro della carta o dalla presenza di macchie di varia natura.
Informazioni non strutturate: molte informazioni presenti nei documenti cartacei possono essere contenute in note a margine, grafici disegnati a mano o layout non convenzionali (si distinguono in questo caso in non strutturate o semistrutturate) : la loro corretta interpretazione richiede algoritmi avanzati di elaborazione del linguaggio naturale (NLP) e riconoscimento di pattern.
Rischi di privacy e sicurezza: i documenti cartacei possono contenere informazioni sensibili o riservate, come dati personali o informazioni aziendali riservate. L'estrazione dei dati deve essere gestita con attenzione per garantire la privacy e la sicurezza delle informazioni acquisite in conformità alle normative vigenti.
Manutenzione e aggiornamento dei modelli: gli algoritmi e i modelli utilizzati per l'estrazione dei dati devono essere continuamente aggiornati e ottimizzati per migliorare l'accuratezza e l'efficienza del processo di estrazione dei dati. Questo richiede un ciclo di sviluppo iterativo e un monitoraggio costante delle prestazioni.

Le tecnologie avanzate di Sapiens Analytics: la rivoluzione dei RAG

Uno dei modi in cui Sapiens Analytics affronta le sfide dell’estrazione di dati da documenti cartacei prevede di partire dalla scansione fisica del documento e dall’applicazione di tecniche OCR (Optical Character Recognition): questo consente di trasformare testi stampati in dati digitali editabili e ricercabili.

Nello sviluppo di una soluzione di estrazione automatica e supervisionata dei dati, Sapiens Analytics ha spesso scelto per i propri Clienti di utilizzare intelligenze generative che possano interpretare e produrre un linguaggio naturale (Natural Language Processing, NLP).

Secondo l’esperienza di Sapiens Analytics, infatti l’uso di tecnologie NLP si rivela ottimale: sebbene sia empiricamente possibile elaborare ogni documento nella sua interezza, ricorrendo ai modelli Large Language Models oggi largamente utilizzati, tuttavia questa non è la strada migliore dal punto di vista dell’efficienza e del consumo di risorse. Gli LLM richiedono infatti un ingente dispendio di risorse computazionali e tempo: basti pensare che l'elaborazione di un solo documento di 10 pagine richiede migliaia di token e circa 60 secondi. Pertanto, è necessario adottare un approccio più mirato, che consenta al sistema di leggere e interpretare il documento, identificando le sezioni di effettivo interesse per l'utente, riducendo drasticamente il tempo e le risorse computazionali necessarie per l’analisi.

Proprio la pre-elaborazione mirata rappresenta la chiave di volta del know-how sviluppato da Sapiens Analytics nell’ambito della Document Automation, anche grazie alla collaborazione con centri universitari all’avanguardia nella ricerca tecnologica, tra cui l’Università Ca’ Foscari di Venezia e l’Università di Bologna.

In particolare, spiega Luca Feletti, Project Manager di Sapiens Analytics, “per alcuni progetti sfruttiamo l’efficienza dei Retriever-Augmented Generators (RAG), che rappresentano una frontiera innovativa in grado di combinare le potenzialità di recupero delle informazioni con la generazione di testo. Questa tecnologia si basa sulla suddivisione coerente del testo in stralci detti 'chunk'; i chunk sono poi codificati e archiviati in un Database vettoriale (embedding). Nel momento in cui si vuole cercare un’informazione particolare contenuta nel testo, il RAG ricerca i chunk più correlati alla domanda e li fa elaborare dal motore LLM, risparmiando sulla trasmissione di token (e quindi sul consumo di risorse). Inoltre l’analisi impiega tempo. Se io dovessi caricare un documento di 10 pagine consumo qualche migliaio di token e ci impiego anche 1 minuto. Ora pensiamo di elaborare un archivio con 5000 documenti. Quello di caricare un intero documento per ogni domanda o analisi è un approccio poco efficiente.

Serve quindi un sistema che legga ed interpreti il documento e capisca quale sezione di un documento è di effettivo interesse per l’utente. Esempio: invece di caricare tutti i Promessi Sposi, se cerco informazioni sull’Innominato, carico solo il relativo capitolo o, addirittura, solo i paragrafi in cui questo personaggio compare. Ora, fare questa pre-elaborazione non è banale e Sapiens Analytics ha elaborato un know-how specifico in queste tecnologie di document automation, che si rivela particolarmente utile quando si ha la necessità di interpretare, riassumere o convertire grandi volumi di testo, e permette di contribuire significativamente all'ottimizzazione dei flussi di lavoro e all'incremento dell'efficienza operativa".

Vuoi approfondire le tecnologie innovative di Sapiens Analytics? Clicca qui

Affinché l’estrazione dei dati sia precisa e non si generino allucinazioni (cioè errori da parte dell’intelligenza generativa), il processo di suddivisione in chunk deve essere fatto con la massima accuratezza ed è proprio questo l’aspetto più sensibile, in cui la competenza del provider di Intelligenza Artificiale fa la differenza dei risultati. Non è sufficiente suddividere il testo per numero di caratteri o ricercando elementi di punteggiatura. Sapiens Analytics ha studiato e implementato approcci innovativi che sfruttano motori LLM locali per la pre-elaborazione dei testi, e utilizza, in contesti rilevanti e con casi d’uso reali, soluzioni in costante evoluzione che si basano su sull’utilizzo della Computer Vision per l’identificazione della struttura di un documento (identificazione di paragrafi, tabelle, didascalie, titoli eccetera), ottenendo risultati altrimenti irraggiungibili con la semplice analisi del testo.

Scopri un la Storia di un Cliente che ha automatizzato l'acquisizione di documenti cartacei con Sapiens Analytics. Clicca qui

Si tratta di evoluzioni fondamentali considerato l’intento di base: fornire strumenti validi a livello industriale, che permettano di acquisire facilmente una quantità di informazioni altrimenti impossibile da aggregare.

In conclusione, l’addestramento della Intelligenza Artificiale rischierebbe di arenarsi se non fosse possibile acquisire dati anche da documenti cartacei - ancor oggi una delle principali fonti di informazioni nelle aziende - Sapiens Analytics offre la soluzione essenziale a questa problematica.

Ti è piaciuto l'articolo?

Iscriviti alla Newsletter e ricevi aggiornamenti sulla rivoluzione portata dall'Intelligenza Artificiale nelle imprese! Clicca qui >>

Gruppo Uniquon

Strategie predittive, aziende e AI: la rivoluzione passa dall’acquisizione dati da cartaceo.

Quali complessità nell’acquisizione di dati da documenti cartacei?

Le tecnologie avanzate di Sapiens Analytics: la rivoluzione dei RAG

Post recenti