WO2023056920 - MULTILAYER PERCEPTRON NEURAL NETWORK FOR SPEECH PROCESSING
National phase entry is expected:
Publication Number
WO/2023/056920
Publication Date
13.04.2023
International Application No.
PCT/CN2022/123740
International Filing Date
08.10.2022
Title **
[English]
MULTILAYER PERCEPTRON NEURAL NETWORK FOR SPEECH PROCESSING
[French]
RÉSEAU NEURONAL PERCEPTRON MULTICOUCHE POUR TRAITEMENT DE LA PAROLE
Applicants **
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Administration Building, Bantian,Longgang District
Shenzhen, Guangdong 518129, CN
Inventors
XING, Chao
6566 Boul St-Laurent
Montreal, Québec H2S 3C6, CA
Priority Data
63/252,571
05.10.2021
US
Application details
| Total Number of Claims/PCT | * |
| Number of Independent Claims | * |
| Number of Priorities | * |
| Number of Multi-Dependent Claims | * |
| Number of Drawings | * |
| Pages for Publication | * |
| Number of Pages with Drawings | * |
| Pages of Specification | * |
| * | |
| * | |
International Searching Authority |
CNIPA
* |
| Applicant's Legal Status |
Legal Entity
* |
| * | |
| * | |
| * | |
| * | |
| Entry into National Phase under |
Chapter I
* |
| Translation |
|
Recalculate
* The data is based on automatic recognition. Please verify and amend if necessary.
** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.
Quotation for National Phase entry
| Country | Stages | Total | |
|---|---|---|---|
| China | Filing | 1175 | |
| EPO | Filing, Examination | 7117 | |
| Japan | Filing | 596 | |
| South Korea | Filing | 575 | |
| USA | Filing, Examination | 3310 |

Total: 12773 USD
The term for entry into the National Phase has expired. This quotation is for informational purposes only
Abstract[English]
A speech processing method and system using multilayer perceptron neural networks. A first sequence of speech feature representations is divided to generate a plurality of chunked speech feature representations. A respective unfolding operation is applied to each chunked speech feature representation to generate a respective unfolded chunk. A respective first linear transformation is applied to each respective unfolded chunk to generate a respective contextual speech feature representation. The respective contextual speech feature representations are concatenated to provide a first sequence of contextual speech feature representations. A second linear transformation is applied to generate a first transformed sequence of contextual speech representation features based on the first sequence of contextual speech feature representations. The first sequence of speech feature representations is mapped onto the first transformed sequence of contextual speech representation features to generate a first output sequence of contextual speech representation features.[French]
L'invention concerne un procédé et un système de traitement de la parole utilisant des réseaux neuronaux perceptron multicouches. Une première séquence de représentations de caractéristiques vocales est divisée pour générer une pluralité de représentations de caractéristiques vocales en blocs. Une opération de dépliage respective est appliquée à chaque représentation de caractéristiques vocales en blocs pour générer un bloc déplié respectif. Une première transformation linéaire respective est appliquée à chaque bloc déplié respectif pour générer une représentation de caractéristiques vocales contextuelle respective. Les représentations de caractéristiques vocales contextuelles respectives sont concaténées pour fournir une première séquence de représentations de caractéristique vocales contextuelles. Une seconde transformation linéaire est appliquée pour générer une première séquence transformée de caractéristiques de représentation de parole contextuelle sur la base de la première séquence de représentations de caractéristiques vocales contextuelles. La première séquence de représentations de caractéristiques vocales est mappée sur la première séquence transformée de caractéristiques de représentation de parole contextuelle pour générer une première séquence de sortie de caractéristiques de représentation de parole contextuelle.