WO2023026166 - SYSTEM AND METHOD FOR META-DATA EXTRACTION FROM DOCUMENTS

National phase entry is expected:
Publication Number WO/2023/026166
Publication Date 02.03.2023
International Application No. PCT/IB2022/057840
International Filing Date 22.08.2022
Title **
[English] SYSTEM AND METHOD FOR META-DATA EXTRACTION FROM DOCUMENTS
[French] SYSTÈME ET PROCÉDÉ D'EXTRACTION DE MÉTADONNÉES À PARTIR DE DOCUMENTS
Applicants **
L&T TECHNOLOGY SERVICES LIMITED DLF IT SEZ Park, 2nd Floor – Block 3, 1/124, Mount Poonamallee Road, Ramapuram, Chennai - 600 089, Tamil Nadu, India Bangalore 600089, IN
Inventors
MALVIYA, Ankit 1280, Bhimpur Road, Chicholi, Betul, Madhya Pradesh - 460330, India Betul 460330, IN
BALARAMAN, Mridul B 206, SVS Palms 2, Chinnapanhalli Main Road, Dodanekundi, Bangalore, Karnataka – 560037, India Bangalore 560037, IN
SINGH, Madhusudan B-603, Ajmera Stone Park, 1st Cross, Electronic City – 1, Bangalore, Karnataka – 560100, India Bangalore 560100, IN
Priority Data
202141038813   27.08.2021   IN
Application details
Total Number of Claims/PCT *
Number of Independent Claims *
Number of Priorities *
Number of Multi-Dependent Claims *
Number of Drawings *
Pages for Publication *
Number of Pages with Drawings *
Pages of Specification *
*
*
International Searching Authority
*
Applicant's Legal Status
*
*
*
*
*
Entry into National Phase under
*
Translation

Recalculate

* The data is based on automatic recognition. Please verify and amend if necessary.

** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.

Quotation for National Phase entry

Country StagesTotal
China Filing971
EPO Filing, Examination7042
Japan Filing589
South Korea Filing575
USA Filing, Examination2710
MasterCard Visa

Total: 11887

The term for entry into the National Phase has expired. This quotation is for informational purposes only

Abstract[English] A method of extracting meta-data from a document includes capturing style attributes from the document, identifying cell-wise location coordinates for text characters using page segmentation and border table extraction, and finding relationship between nearby cells using surrounding embedding by determining shortest distant text cell in top, left, right, and bottom direction. The method further includes applying Graph Convolution Network with Informative Attention (GCN-IA) for providing more attention to informative nodes for generating better representation of surrounding embedding and capturing a deep contextual meaning from text cells. A domain specific language model is utilized and improved by a domain aware tokenizer. The method includes capturing a complex visual layout of the document using the domain specific visual model, determining meta-data information, representing linguistic and visual contexts of the document, and correcting the extracted output by applying advanced post processing on the extracted output from advanced language-visual model.[French] L'invention concerne un procédé d'extraction de métadonnées à partir d'un document, comprenant la capture d'attributs de style à partir du document, l'identification de coordonnées d'emplacement par cellule pour des caractères de texte en utilisant la segmentation de page et l'extraction de table de bordure, et la recherche d'une relation entre des cellules voisines en utilisant l'incorporation environnante par détermination de la cellule de texte à la distante la plus courte dans la direction vers le haut, vers la gauche, vers la droite et vers le bas. Le procédé comprend en outre l'application d'un réseau de convolution graphique avec attention informative (GCN-IA) pour accorder davantage d'attention à des nœuds informatifs en vue de générer une meilleure représentation de l'incorporation environnante et la capture d'une signification contextuelle profonde à partir de cellules de texte. Un modèle de langage spécifique au domaine est utilisé et amélioré par un analyseur lexical sensible au domaine. Le procédé comprend la capture d'une disposition visuelle complexe du document en utilisant le modèle visuel spécifique au domaine, la détermination d'informations de métadonnées, la représentation de contextes linguistique et visuel du document, et la correction de la sortie extraite par l'application d'un post-traitement avancé sur la sortie extraite à partir d'un modèle de langage-visuel avancé.
An unhandled error has occurred. Reload 🗙