WO2023173298 - METHODS AND SYSTEMS FOR DISTRIBUTED TRAINING A DEEP NEURAL NETWORK
National phase entry is expected:
Publication Number
WO/2023/173298
Publication Date
21.09.2023
International Application No.
PCT/CN2022/081013
International Filing Date
15.03.2022
Title **
[English]
METHODS AND SYSTEMS FOR DISTRIBUTED TRAINING A DEEP NEURAL NETWORK
[French]
PROCÉDÉS ET SYSTÈMES D'ENTRAÎNEMENT DISTRIBUÉ D'UN RÉSEAU NEURONAL PROFOND
Applicants **
HUAWEI TECHNOLOGIES CO.,LTD.
Huawei Administration Building, Bantian, Longgang District
Shenzhen, Guangdong 518129, CN
Inventors
CAVATASSI, Adam
Suite 400, 303 Terry Fox Drive, Kanata
Ottawa, Ontario 231, CA
GE, Yiqun
Suite 400, 303 Terry Fox Drive, Kanata
Ottawa, Ontario 231, CA
TONG, Wen
Suite 400, 303 Terry Fox Drive, Kanata
Ottawa, Ontario 231, CA
SHI, Wuxian
Suite 400, 303 Terry Fox Drive, Kanata
Ottawa, Ontario 231, CA
Application details
| Total Number of Claims/PCT | * |
| Number of Independent Claims | * |
| Number of Priorities | * |
| Number of Multi-Dependent Claims | * |
| Number of Drawings | * |
| Pages for Publication | * |
| Number of Pages with Drawings | * |
| Pages of Specification | * |
| * | |
| * | |
International Searching Authority |
CNIPA
* |
| Applicant's Legal Status |
Legal Entity
* |
| * | |
| * | |
| * | |
| * | |
| Entry into National Phase under |
Chapter I
* |
| Translation |
|
Recalculate
* The data is based on automatic recognition. Please verify and amend if necessary.
** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.
Quotation for National Phase entry
| Country | Stages | Total | |
|---|---|---|---|
| China | Filing | 1520 | |
| EPO | Filing, Examination | 9721 | |
| Japan | Filing | 591 | |
| South Korea | Filing | 482 | |
| USA | Filing, Examination | 2710 |

Total: 15024 USD
The term for entry into the National Phase has expired. This quotation is for informational purposes only
Abstract[English]
The present application provides a forward-propagation-only (FP-only) method of training a DNN model. It may be shown that such single-directional (FP-only) methods of training a DNN model result in a trained DNN model whose performance comparable to a DNN model trained using bidirectional (forward propagation and backward propagation) training methods. The FP-only method for training a DNN model may be shown to operate without a need to employ the known chain rule. The chain rule is known to be employed when computing gradients in preparation for a backward propagation in a bidirectional method for training a DNN model. The FP-only method for training a DNN model may be shown to allow for the computations and updates to the parameters for each layer of the DNN model to be performed in parallel. The FP-only methods for training a DNN model use stochastic gradient descent and, accordingly, the FP-only method for training a DNN model still involves computing gradients. However, the FP-only methods of training a DNN model allow for computing of gradients without the chain rule.[French]
La présente demande concerne un procédé de propagation vers l'avant uniquement (FP uniquement) d'entraînement d'un modèle DNN. Il peut être démontré que de tels procédés monodirectionnels (FP uniquement) d'entraînement d'un modèle DNN conduisent à un modèle DNN entraîné dont les performances sont comparables à un modèle DNN entraîné à l'aide de procédés d'entraînement bidirectionnels (propagation vers l'avant et propagation vers l'arrière). Le procédé FP uniquement destiné à l'entraînement d'un modèle DNN peut être indiqué pour fonctionner sans qu'il ne soit nécessaire d'utiliser la règle de chaîne connue. La règle de chaîne est connue pour être utilisée lors du calcul de gradients dans la préparation d'une propagation vers l'arrière dans un procédé bidirectionnel destiné à l'entraînement d'un modèle DNN. Le procédé FP uniquement destiné à l'entraînement d'un modèle DNN peut être indiqué pour permettre les calculs et les mises à jour des paramètres pour chaque couche du modèle DNN à effectuer en parallèle. Les procédés FP uniquement destinés à l'entraînement d'un modèle DNN utilisent une descente de gradient stochastique et, par conséquent, le procédé FP uniquement destiné à l'entraînement d'un modèle DNN implique toujours des gradients informatiques. Cependant, les procédés FP uniquement d'entraînement d'un modèle DNN permettent de calculer des gradients sans la règle de chaîne.