IP-Coster | WO2023026166 | SYSTEM AND METHOD FOR META-DATA EXTRACTION FROM DOCUMENTS

Publication Number WO/2023/026166

Publication Date 02.03.2023

International Application No. PCT/IB2022/057840

International Filing Date 22.08.2022

Title **

[English] SYSTEM AND METHOD FOR META-DATA EXTRACTION FROM DOCUMENTS

[French] SYSTÈME ET PROCÉDÉ D'EXTRACTION DE MÉTADONNÉES À PARTIR DE DOCUMENTS

Applicants **

L&T TECHNOLOGY SERVICES LIMITED DLF IT SEZ Park, 2nd Floor – Block 3, 1/124, Mount Poonamallee Road, Ramapuram, Chennai - 600 089, Tamil Nadu, India Bangalore 600089, IN

Inventors

MALVIYA, Ankit 1280, Bhimpur Road, Chicholi, Betul, Madhya Pradesh - 460330, India Betul 460330, IN

BALARAMAN, Mridul B 206, SVS Palms 2, Chinnapanhalli Main Road, Dodanekundi, Bangalore, Karnataka – 560037, India Bangalore 560037, IN

SINGH, Madhusudan B-603, Ajmera Stone Park, 1st Cross, Electronic City – 1, Bangalore, Karnataka – 560100, India Bangalore 560100, IN

Priority Data

202141038813 27.08.2021 IN

Application details

Total Number of Claims/PCT	*
Number of Independent Claims	*
Number of Priorities	*
Number of Multi-Dependent Claims	*
Number of Drawings	*
Pages for Publication	*
Number of Pages with Drawings	*
Pages of Specification	*
Sequence Listing	*
International Search Report is established	*
International Searching Authority	IP India *
Applicant's Legal Status	Legal Entity *
Small Entity	*
Non-Commercial Organization	*
Small Entity, USA	*
Micro Entity, USA	*
Entry into National Phase under	Chapter I *
Translation

Recalculate

* The data is based on automatic recognition. Please verify and amend if necessary.

** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.

Quotation for National Phase entry

Country	Stages	Total
China	Filing	971
EPO	Filing, Examination	7042
Japan	Filing	589
South Korea	Filing	575
USA	Filing, Examination	2710

+ Add country

Total: 11887 USD

The term for entry into the National Phase has expired. This quotation is for informational purposes only

QUOTE TO EMAIL ONLINE QUOTE

Abstract[English] A method of extracting meta-data from a document includes capturing style attributes from the document, identifying cell-wise location coordinates for text characters using page segmentation and border table extraction, and finding relationship between nearby cells using surrounding embedding by determining shortest distant text cell in top, left, right, and bottom direction. The method further includes applying Graph Convolution Network with Informative Attention (GCN-IA) for providing more attention to informative nodes for generating better representation of surrounding embedding and capturing a deep contextual meaning from text cells. A domain specific language model is utilized and improved by a domain aware tokenizer. The method includes capturing a complex visual layout of the document using the domain specific visual model, determining meta-data information, representing linguistic and visual contexts of the document, and correcting the extracted output by applying advanced post processing on the extracted output from advanced language-visual model.[French] L'invention concerne un procédé d'extraction de métadonnées à partir d'un document, comprenant la capture d'attributs de style à partir du document, l'identification de coordonnées d'emplacement par cellule pour des caractères de texte en utilisant la segmentation de page et l'extraction de table de bordure, et la recherche d'une relation entre des cellules voisines en utilisant l'incorporation environnante par détermination de la cellule de texte à la distante la plus courte dans la direction vers le haut, vers la gauche, vers la droite et vers le bas. Le procédé comprend en outre l'application d'un réseau de convolution graphique avec attention informative (GCN-IA) pour accorder davantage d'attention à des nœuds informatifs en vue de générer une meilleure représentation de l'incorporation environnante et la capture d'une signification contextuelle profonde à partir de cellules de texte. Un modèle de langage spécifique au domaine est utilisé et amélioré par un analyseur lexical sensible au domaine. Le procédé comprend la capture d'une disposition visuelle complexe du document en utilisant le modèle visuel spécifique au domaine, la détermination d'informations de métadonnées, la représentation de contextes linguistique et visuel du document, et la correction de la sortie extraite par l'application d'un post-traitement avancé sur la sortie extraite à partir d'un modèle de langage-visuel avancé.

WO2023026166 - SYSTEM AND METHOD FOR META-DATA EXTRACTION FROM DOCUMENTS

Quotation for National Phase entry