WO2022068934 - METHOD OF NEURAL ARCHITECTURE SEARCH USING CONTINUOUS ACTION REINFORCEMENT LEARNING
National phase entry is expected:
Publication Number
WO/2022/068934
Publication Date
07.04.2022
International Application No.
PCT/CN2021/122384
International Filing Date
30.09.2021
Title **
[English]
METHOD OF NEURAL ARCHITECTURE SEARCH USING CONTINUOUS ACTION REINFORCEMENT LEARNING
[French]
PROCÉDÉ DE RECHERCHE D'ARCHITECTURE NEURONALE À L'AIDE D'UN APPRENTISSAGE PAR RENFORCEMENT À ACTION CONTINUE
Applicants **
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Administration Building, Bantian, Longgang District
Shenzhen, Guangdong 518129, CN
Inventors
SALAMEH, Mohammad
6220 5 Avenue SW
Edmonton, Alberta T6X 0E8, CA
MILLS, Keith George
4402 42B Ave
Leduc, Alberta T9E 4R9, CA
NIU, Di
1203 Hainstock Green SW
Edmonton, Alberta T6W 3B6, CA
Priority Data
63/085,713
30.09.2020
US
17/488,796
29.09.2021
US
Application details
| Total Number of Claims/PCT | * |
| Number of Independent Claims | * |
| Number of Priorities | * |
| Number of Multi-Dependent Claims | * |
| Number of Drawings | * |
| Pages for Publication | * |
| Number of Pages with Drawings | * |
| Pages of Specification | * |
| * | |
| * | |
International Searching Authority |
CNIPA
* |
| Applicant's Legal Status |
Legal Entity
* |
| * | |
| * | |
| * | |
| * | |
| Entry into National Phase under |
Chapter I
* |
| Translation |
|
Recalculate
* The data is based on automatic recognition. Please verify and amend if necessary.
** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.
Quotation for National Phase entry
| Country | Stages | Total | |
|---|---|---|---|
| China | Filing | 1473 | |
| EPO | Filing, Examination | 9217 | |
| Japan | Filing | 591 | |
| South Korea | Filing | 607 | |
| USA | Filing, Examination | 2710 |

Total: 14598 USD
The term for entry into the National Phase has expired. This quotation is for informational purposes only
Abstract[English]
A method and system for generating neural architectures to perform a particular task. An actor neural network, as part of a continuous action reinforcement learning (RL) agent, generates a randomized continuous actions parameters to encourage exploration of a search space to generate candidate architectures without bias. The continuous action parameters are discretized and applied to a search space to generate candidate architectures, the performance of which for performing the particular task is evaluated. Corresponding reward and state are determined based on the performance. A critic neural network, as part of the continuous action RL agent, learns a mapping of the continuous action to a reward using modified Deep Deterministic Policy Gradient (DDPG) with quantile loss function by sampling a list of top performing architectures. The actor neural network is updated with the learned mapping.[French]
L'invention concerne un procédé et un système de génération d'architectures neurales pour effectuer une tâche particulière. Un réseau neuronal acteur, en tant que partie d'un agent d'apprentissage par renforcement (RL) à action continue, génère un paramètre d'actions continues aléatoires pour encourager l'exploration d'un espace de recherche afin de générer des architectures candidates sans polarisation. Les paramètres d'action continue sont discrétisés et appliqués à un espace de recherche pour générer des architectures candidates, dont les performances pour réaliser la tâche particulière sont évaluées. Une récompense et un état correspondants sont déterminés sur la base des performances. Un réseau neuronal critique, en tant que partie de l'agent RL à action continue, apprend un mappage de l'action continue à une récompense à l'aide d'un gradient de politique déterministe profond modifié (DDPG) avec une fonction de perte de quantile par échantillonnage d'une liste d'architectures ayant les meilleures performances. Le réseau neuronal acteur est mis à jour avec le mappage appris.