WO2023020892 - METHOD AND SYSTEM FOR AUTOMATED CORRECTION AND/OR COMPLETION OF A DATABASE
National phase entry:
Publication Number
WO/2023/020892
Publication Date
23.02.2023
International Application No.
PCT/EP2022/072331
International Filing Date
09.08.2022
Title **
[English]
METHOD AND SYSTEM FOR AUTOMATED CORRECTION AND/OR COMPLETION OF A DATABASE
[French]
PROCÉDÉ ET SYSTÈME DE CORRECTION ET/OU DE COMPLÉTION AUTOMATISÉE(S) D'UNE BASE DE DONNÉES
Applicants **
SIEMENS AKTIENGESELLSCHAFT
Werner-von-Siemens-Straße 1
80333 München, DE
Inventors
BRIKIS, Georgia Olympia
4210 Fox Run Dr, 08536
Plainsboro, 08536, US
HASAN, Rakebul
Veldener Str. 57
84036 Landshut, DE
HILDEBRANDT, Marcel
Leonrodstraße 21
80634 München, DE
JOBLIN, Mitchell
1-12925 17th Ave
Surrey, BC, V4A 8S7, CA
KOLEVA, Aneta
Weilheimer Str 21e
81373 München, DE
RINGSQUANDL, Martin
Amselweg 15
83064 Raubling, DE
ZECHEL, Markus
Salzachbogen 20
83278 Traunstein, DE
Priority Data
21191938.6
18.08.2021
EP
Application details
| Total Number of Claims/PCT | * |
| Number of Independent Claims | * |
| Number of Priorities | * |
| Number of Multi-Dependent Claims | * |
| Number of Drawings | * |
| Pages for Publication | * |
| Number of Pages with Drawings | * |
| Pages of Specification | * |
| * | |
| * | |
International Searching Authority |
EPO
* |
| Applicant's Legal Status |
Legal Entity
* |
| * | |
| * | |
| * | |
| * | |
| Entry into National Phase under |
Chapter I
* |
| Translation |
|
Recalculate
* The data is based on automatic recognition. Please verify and amend if necessary.
** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.
Quotation for National Phase entry
| Country | Stages | Total | |
|---|---|---|---|
| China | Filing | 1127 | |
| EPO | Filing, Examination | 4696 | |
| Japan | Filing | 587 | |
| South Korea | Filing | 574 | |
| USA | Filing, Examination | 2710 |

Total: 9694 USD
The term for entry into the National Phase has expired. This quotation is for informational purposes only
Abstract[English]
An auto-encoder model (AEM) processes a datasets describing a physical part from a part catalogue in the form of a property co-occurrence graph (G), and performs entity resolution and auto-completion on the co-occurrence graph (G) in order to compute a corrected and/or completed dataset. According to an embodiment, the encoder (E) consists of a recurrent neural network (RNN) and a graph attention network (GAT). The decoder (D) contains a linear decoder (LD) for numeric values and a recurrent neural network decoder (RNN-D) for strings. The auto-encoder model provides an automated end-to-end solution that can auto-complete missing information as well as correct data errors such as misspellings or wrong values. The auto-encoder model is capable of auto-completion for highly unaligned part specification data with missing values. This has multiple benefits: First, the auto-encoder model can be trained completely unsupervised (self-supervised) as no labeled training data is required. Second, the auto-encoder model can capture correlation between any part specification property, value, and unit of measure. Third, the auto-encoder model is a single model instead of many models (for example, one for each property and unit) as would be the case in a Euclidean (table-based) missing data imputation algorithm. Fourth, the auto-encoder model can natively handle misspelled property and values terms and learn to align them. A further advantage is the ability for interactive user involvement. As the auto-encoder model operates purely on character-level, immediate feedback to the user can be given, for example after each character that the user is typing or editing.[French]
Un modèle d'autocodeur (AEM) traite des ensembles de données décrivant une partie physique à partir d'un catalogue de pièces sous la forme d'un graphe de cooccurrence de propriétés (G), et effectue une résolution d'entité et une autocomplétion sur le graphique de cooccurrence (G) afin de calculer un ensemble de données corrigé et/ou complété. Selon un mode de réalisation, le codeur (E) est constitué d'un réseau neuronal récurrent (RNN) et d'un réseau d'attention graphique (GAT). Le décodeur (D) contient un décodeur linéaire (LD) pour des valeurs numériques et un décodeur de réseau neuronal récurrent (RNN-D) pour des chaînes. Le modèle d'autocodeur fournit une solution de bout en bout automatisée qui peut autocompléter des informations manquantes et corriger des erreurs de données telles que des fautes d'orthographe ou des valeurs erronées. Le modèle d'autocodeur est capable d'effectuer une autocomplétion pour des données de spécification de pièce hautement non alignées avec des valeurs manquantes. Cela présente de multiples avantages : d'abord, le modèle d'autocodeur peut être entraîné entièrement sans supervision (autosupervision), car aucune donnée d'entraînement marquée n'est nécessaire; deuxièmement, le modèle d'autocodeur peut capturer une corrélation entre n'importe quelle propriété de spécification de pièce, valeur et unité de mesure; troisièmement, le modèle d'autocodeur est un modèle unique au lieu de nombreux modèles (par exemple, un pour chaque propriété et unité) comme cela serait le cas dans un algorithme euclidien d'imputation de données manquantes (basé sur un tableau); quatrièmement, le modèle d'autocodeur peut gérer de manière native des termes de propriété et de valeurs mal orthographiés et apprendre à les aligner. Un autre avantage est la capacité d'implication interactive de l'utilisateur. Au fur et à mesure que le modèle d'autocodeur fonctionne uniquement au niveau des caractères, un retour immédiat peut être donné à l'utilisateur, par exemple après chaque caractère que l'utilisateur frappe ou modifie.