Les documents PDF contiennent de nombreuses données d’entreprise. Certes, les outils Zen AI sont capables d’ingérer et d’analyser des PDF, mais la précision, le temps et le coût sont loin d’être idéaux. La nouvelle technologie de Databricks pourrait changer cela.

La société a détaillé cette semaine sa technologie « ai_parse_document », désormais intégrée à la plateforme Agent Bricks de Databricks. Cette technologie surmonte un obstacle majeur à l’adoption de l’IA en entreprise : environ 80 % des connaissances des entreprises sont contenues dans des PDF, des rapports et des diagrammes que les systèmes d’IA ont du mal à traiter et à comprendre correctement.

“Il est courant de penser que l’analyse des fichiers PDF est un problème qui peut être résolu, mais en réalité, ce n’est pas le cas”, a déclaré à VentureBeat Erich Elsen, chercheur principal chez Databricks. « Le problème n’est pas seulement que les documents sont désorganisés ; c’est aussi que les PDF d’entreprise sont intrinsèquement complexes. Ils mélangent du contenu numérique avec des tableaux, des graphiques et des mises en page irrégulières, ainsi que des pages numérisées et des photos de documents physiques, et la plupart des outils existants ne parviennent pas à capturer ces informations avec précision.

Complexité cachée derrière l’analyse de documents

Bien que la reconnaissance optique de caractères (OCR) existe depuis des décennies, Elsen affirme que l’extraction de données structurées et utilisables à partir de documents d’entreprise réels reste fondamentalement irrésolue.

Des éléments clés tels que des tableaux avec des cellules fusionnées, des légendes d’images et des relations spatiales entre les éléments du document sont systématiquement omis ou mal lus par les outils existants, ce qui rend les applications d’IA en aval, les systèmes de génération augmentée par récupération (RAG) ou les tableaux de bord de business intelligence peu fiables.

La solution de contournement typique d’une entreprise consiste à empiler plusieurs outils incomplets : un pour la détection de mise en page, un autre pour l’OCR, un troisième pour l’extraction de tableaux, ainsi que des API supplémentaires pour l’analyse d’images. Cette approche nécessite des mois d’ingénierie de données personnalisées et de maintenance continue à mesure que les formats de documents évoluent.

« Pour compenser, les équipes ont dû empiler plusieurs outils incomplets ou créer des pipelines personnalisés élaborés, consacrant des mois à l’ingénierie des données plutôt qu’à l’innovation », a déclaré Elsen. “ai_parse_document résout en extrayant des données complètes et structurées à partir de documents du monde réel, afin que les organisations puissent enfin faire confiance et rechercher des données non structurées directement dans Databricks.”

Approche technique : formation de bout en bout ou empilement de pipelines

Il existe aujourd’hui plusieurs services sur le marché pour analyser les PDF, notamment AWS Textract, Google Document AI et Azure Document Intelligence. Elsen a fait valoir qu’au lieu de simplement lire du texte, l’outil utilise un système de composants d’IA avancés formés de bout en bout pour extraire un contexte structuré avec une qualité de pointe.

La fonction va au-delà de l’extraction de base pour capturer :

  • Les tableaux sont enregistrés exactement tels qu’ils apparaissent, avec des cellules concaténées et des structures imbriquées

  • Images et diagrammes avec légendes et descriptions générées par l’IA

  • Métadonnées spatiales et cadres de délimitation pour les emplacements d’éléments spécifiques

  • Sortie d’image en option pour les applications de recherche multimodales

Tous les résultats sont stockés directement dans le catalogue Databricks Unity sous forme de tables delta, ce qui signifie que les documents analysés deviennent des données structurées consultables sans quitter l’environnement Databricks. Il s’agit d’un différenciateur clé des services cloud qui nécessitent l’exportation de données pour le traitement.

« Grâce à une formation centrée sur les données et à une inférence optimisée, nous avons obtenu des coûts 3 à 5 fois inférieurs tout en égalant ou dépassant les systèmes de pointe tels que Texttract, Document AI et Azure Document Intelligence », a déclaré Elsen.

Prendre des initiatives initiales dans les secteurs manufacturiers et industriels

Plusieurs grandes entreprises ont déjà déployé ai_parse_document pour l’optimisation des flux de travail de science des données, la démocratisation du traitement des documents et le développement d’applications RAG.

Par exemple, Elsen note que Rockwell Automation utilise ai_parse_document pour réduire la surcharge de configuration pour ses data scientists.

« Ce qui nécessitait autrefois une configuration critique pour prendre en charge des solutions complexes est désormais rationalisé, permettant aux équipes de consacrer plus de temps à innover et moins de temps à gérer l’infrastructure », a-t-il déclaré.

TE Connectivity, quant à lui, utilise ai_parse_document pour démocratiser le traitement des données non structurées.

« Auparavant, l’extraction de tableaux, de textes et de métadonnées à partir de documents nécessitait des flux de travail complexes et gourmands en code », a déclaré Elsen. “Avec Databricks, ils les ont condensés en une seule fonction SQL, rendant le traitement avancé des documents accessible à toutes les équipes chargées des données, et pas seulement aux data scientists.”

Emerson Electric est un autre adepte précoce. L’entreprise utilise Un cas d’utilisation de RAG est ai_parse_document. Elsen a expliqué qu’en permettant l’analyse parallèle de documents directement dans Delta Tables, Emerson a rendu les applications RAG à la fois plus rapides et plus simples, le tout dans son environnement Databricks existant.

Jeu d’intégration de plateforme

Bien que Databricks ait une longue histoire avec l’open source, la technologie ai_parse_document est un composant propriétaire de la plateforme Databricks.

Contrairement aux API Document Intelligence autonomes, ai_parse_document est profondément intégré à la plateforme Agent Bricks de Databricks, un ensemble de capacités d’orchestration pour la création de fonctions d’IA et d’agents d’IA de production.

La fonction fonctionne avec la plus grande infrastructure de données de Databricks, notamment :

  • Pipeline déclaratif Spark : Fournissez un traitement incrémentiel automatisé, ce qui signifie que les nouveaux documents arrivant dans SharePoint, S3 ou Azure Data Lake Storage sont automatiquement analysés sans orchestration manuelle.

  • Catalogue Unity : Contrôle les autorisations, les pistes d’audit et le traçage des données pour le contenu analysé, tout comme pour les données structurées.

  • Recherche de vecteur : Indexe les éléments de document analysés, notamment le texte, les tableaux et les figures avec des légendes pour les applications RAG multimodales.

  • Chaînage des fonctions IA : Permet aux développeurs de diriger la sortie ai_parse_document directement vers ai_extract (extraction d’entité), ai_classify (catégorisation de documents) et ai_summarize (résumé de contenu) au sein d’une seule requête SQL.

  • Superviseur multi-agents : Combine des agents de traitement de documents avec d’autres agents spécialisés pour des flux de travail complexes.

“L’analyse syntaxique n’est que le début et rarement la fin en soi”, a déclaré Elsen. « L’objectif est de permettre aux clients de transformer leurs documents en données et informations exploitables grâce à nos fonctions ai_functions, telles que ai_extract et ai_classify, ai_parse_document. Notre objectif est de rendre transparente la transformation d’un corpus de documents en une base de données de connaissances à utiliser pour RAG ou d’autres recherches d’informations.

Ce que cela signifie pour la stratégie d’IA d’entreprise

Pour les initiatives visant à créer des systèmes d’agents IA, il est important de comprendre comment les documents PDF sont réellement utilisés et compris par le système.

L’approche Databricks apporte un nouvel éclairage sur un problème que beaucoup auraient pu considérer comme un problème résolu. Il remet en question les attentes existantes avec une nouvelle architecture qui peut bénéficier à plusieurs types de flux de travail. Cependant, il s’agit d’une fonctionnalité spécifique à la plateforme qui nécessite une évaluation minutieuse pour les organisations qui n’utilisent pas encore Databricks.

Pour les décideurs techniques évaluant les plateformes d’agents d’IA, la clé est de faire passer l’intelligence documentaire d’un service externe spécialisé à une capacité de plateforme intégrée.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici