WO2023131207 - METHODS AND SYSTEMS FOR STREAMABLE MULTIMODAL LANGUAGE UNDERSTANDING
National phase entry is expected:
Publication Number
WO/2023/131207
Publication Date
13.07.2023
International Application No.
PCT/CN2023/070532
International Filing Date
04.01.2023
Title **
[English]
METHODS AND SYSTEMS FOR STREAMABLE MULTIMODAL LANGUAGE UNDERSTANDING
[French]
PROCÉDÉS ET SYSTÈMES DE COMPRÉHENSION DE LANGAGE MULTIMODAL EXTENSIBLE
Applicants **
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Administration Building, Bantian,Longgang District
Shenzhen, Guangdong 518129, CN
Inventors
XING, Chao
Huawei Administration Building, Bantian,Longgang District
Shenzhen, Guangdong 518129, CN
AVILA, Anderson
Suite 400, 303 Terry Fox Drive, Kanata
Ottawa, Ontario 231, CA
Priority Data
17/571,425
07.01.2022
US
Application details
| Total Number of Claims/PCT | * |
| Number of Independent Claims | * |
| Number of Priorities | * |
| Number of Multi-Dependent Claims | * |
| Number of Drawings | * |
| Pages for Publication | * |
| Number of Pages with Drawings | * |
| Pages of Specification | * |
| * | |
| * | |
International Searching Authority |
CNIPA
* |
| Applicant's Legal Status |
Legal Entity
* |
| * | |
| * | |
| * | |
| * | |
| Entry into National Phase under |
Chapter I
* |
| Translation |
|
Recalculate
* The data is based on automatic recognition. Please verify and amend if necessary.
** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.
Quotation for National Phase entry
| Country | Stages | Total | |
|---|---|---|---|
| China | Filing | 1333 | |
| EPO | Filing, Examination | 8249 | |
| Japan | Filing | 590 | |
| South Korea | Filing | 575 | |
| USA | Filing, Examination | 2710 |

Total: 13457 USD
The term for entry into the National Phase has expired. This quotation is for informational purposes only
Abstract[English]
Methods and systems for generating semantic predictions from an input speech signal representing a speaker's speech and maps the semantic predictions to a command action that represents the speaker's intent are provided. A streamable multimodal language understanding (MLU) system(200) includes a machine learning-based model, such as a RNN model that is trained to convert speech chunks and corresponding text predictions of the input speech signal into semantic predictions that represent a speaker's intent. A semantic prediction is generated and updated, over a series of time steps. In each time step, a new speech chunk and corresponding text prediction of the input speech signal are obtained, encoded and fused to generate an audio-textual representation. Extracted semantic information contained within a sequence of semantic predictions representing a speaker's speech are acted upon through a command action performed by another computing device or computer application.[French]
L'invention concerne des procédés et des systèmes permettant de générer des prédictions sémantiques à partir d'un signal vocal d'entrée représentant la parole d'un locuteur et qui mappe les prédictions sémantiques à une action de commande qui représente l'intention du locuteur. Un système de compréhension de langage multimodal (MLU) extensible (200) comprend un modèle basé sur l'apprentissage machine, tel qu'un modèle de réseau RNN qui est formé pour convertir des fragments de parole et des prédictions de texte correspondantes du signal de parole d'entrée en prédictions sémantiques qui représentent l'intention d'un locuteur. Une prédiction sémantique est générée et mise à jour, sur une série d'étapes temporelles. Dans chaque étape temporelle, un nouveau fragment de parole et une prédiction de texte correspondante du signal de parole d'entrée sont obtenus, codés et fusionnés pour générer une représentation audio-textuelle. Des informations sémantiques extraites contenues dans une séquence de prédictions sémantiques représentant la parole d'un locuteur sont suivies au moyen d'une action de commande effectuée par un autre dispositif informatique ou une application informatique.