WO2022068934 - METHOD OF NEURAL ARCHITECTURE SEARCH USING CONTINUOUS ACTION REINFORCEMENT LEARNING

National phase entry is expected:
Publication Number WO/2022/068934
Publication Date 07.04.2022
International Application No. PCT/CN2021/122384
International Filing Date 30.09.2021
Title **
[English] METHOD OF NEURAL ARCHITECTURE SEARCH USING CONTINUOUS ACTION REINFORCEMENT LEARNING
[French] PROCÉDÉ DE RECHERCHE D'ARCHITECTURE NEURONALE À L'AIDE D'UN APPRENTISSAGE PAR RENFORCEMENT À ACTION CONTINUE
Applicants **
HUAWEI TECHNOLOGIES CO., LTD. Huawei Administration Building, Bantian, Longgang District Shenzhen, Guangdong 518129, CN
Inventors
SALAMEH, Mohammad 6220 5 Avenue SW Edmonton, Alberta T6X 0E8, CA
MILLS, Keith George 4402 42B Ave Leduc, Alberta T9E 4R9, CA
NIU, Di 1203 Hainstock Green SW Edmonton, Alberta T6W 3B6, CA
Priority Data
63/085,713   30.09.2020   US
17/488,796   29.09.2021   US
front page image
Application details
Total Number of Claims/PCT *
Number of Independent Claims *
Number of Priorities *
Number of Multi-Dependent Claims *
Number of Drawings *
Pages for Publication *
Number of Pages with Drawings *
Pages of Specification *
*
*
International Searching Authority
*
Applicant's Legal Status
*
*
*
*
*
Entry into National Phase under
*
Translation

Recalculate

* The data is based on automatic recognition. Please verify and amend if necessary.

** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.

Quotation for National Phase entry

Country StagesTotal
China Filing1455
EPO Filing, Examination8460
Japan Filing595
South Korea Filing607
USA Filing, Examination2710
MasterCard Visa

Total: 13827

The term for entry into the National Phase has expired. This quotation is for informational purposes only

Abstract[English] A method and system for generating neural architectures to perform a particular task. An actor neural network, as part of a continuous action reinforcement learning (RL) agent, generates a randomized continuous actions parameters to encourage exploration of a search space to generate candidate architectures without bias. The continuous action parameters are discretized and applied to a search space to generate candidate architectures, the performance of which for performing the particular task is evaluated. Corresponding reward and state are determined based on the performance. A critic neural network, as part of the continuous action RL agent, learns a mapping of the continuous action to a reward using modified Deep Deterministic Policy Gradient (DDPG) with quantile loss function by sampling a list of top performing architectures. The actor neural network is updated with the learned mapping.[French] L'invention concerne un procédé et un système de génération d'architectures neurales pour effectuer une tâche particulière. Un réseau neuronal acteur, en tant que partie d'un agent d'apprentissage par renforcement (RL) à action continue, génère un paramètre d'actions continues aléatoires pour encourager l'exploration d'un espace de recherche afin de générer des architectures candidates sans polarisation. Les paramètres d'action continue sont discrétisés et appliqués à un espace de recherche pour générer des architectures candidates, dont les performances pour réaliser la tâche particulière sont évaluées. Une récompense et un état correspondants sont déterminés sur la base des performances. Un réseau neuronal critique, en tant que partie de l'agent RL à action continue, apprend un mappage de l'action continue à une récompense à l'aide d'un gradient de politique déterministe profond modifié (DDPG) avec une fonction de perte de quantile par échantillonnage d'une liste d'architectures ayant les meilleures performances. Le réseau neuronal acteur est mis à jour avec le mappage appris.
An unhandled error has occurred. Reload 🗙