WO2023036157 - SELF-SUPERVISED SPATIOTEMPORAL REPRESENTATION LEARNING BY EXPLORING VIDEO CONTINUITY
National phase entry is expected:
Publication Number
WO/2023/036157
Publication Date
16.03.2023
International Application No.
PCT/CN2022/117408
International Filing Date
07.09.2022
Title **
[English]
SELF-SUPERVISED SPATIOTEMPORAL REPRESENTATION LEARNING BY EXPLORING VIDEO CONTINUITY
[French]
APPRENTISSAGE AUTO-SUPERVISÉ D'UNE REPRÉSENTATION SPATIO-TEMPORELLE PAR EXPLORATION DE LA CONTINUITÉ VIDÉO
Applicants **
HUAWEI TECHNOLOGIES CO., LTD.
Huawei Administration Building, Bantian,Longgang District
Shenzhen, Guangdong 518129, CN
Inventors
LIANG, Hanwen
180 Leitchcroft Crescent
Thornhill, Ontario L3T 7N5, CA
DAI, Peng
19 Allstate Pkwy.
Markham, Ontario L3R 5A4, CA
CHI, Zhixiang
2301-18 Holmes Ave
North York, Ontario M2N 0E1, CA
CHEN, Lizhe
1 Uptown Drive, Unit 905
Markham, Ontario L3R 5C1, CA
LU, Juwei
202 Holmes Avenue
North York, Ontario M2N 4N1, CA
Priority Data
17/468,224
07.09.2021
US
Application details
| Total Number of Claims/PCT | * |
| Number of Independent Claims | * |
| Number of Priorities | * |
| Number of Multi-Dependent Claims | * |
| Number of Drawings | * |
| Pages for Publication | * |
| Number of Pages with Drawings | * |
| Pages of Specification | * |
| * | |
| * | |
International Searching Authority |
CNIPA
* |
| Applicant's Legal Status |
Legal Entity
* |
| * | |
| * | |
| * | |
| * | |
| Entry into National Phase under |
Chapter I
* |
| Translation |
|
Recalculate
* The data is based on automatic recognition. Please verify and amend if necessary.
** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.
Quotation for National Phase entry
| Country | Stages | Total | |
|---|---|---|---|
| China | Filing | 1508 | |
| EPO | Filing, Examination | 9473 | |
| Japan | Filing | 589 | |
| South Korea | Filing | 575 | |
| USA | Filing, Examination | 2710 |

Total: 14855 USD
The term for entry into the National Phase has expired. This quotation is for informational purposes only
Abstract[English]
A training method and apparatus are provided. The method includes feeding a primary video segment, representative of a concatenation of a first and a second nonadjacent video segments obtained from a video source, to a deep learning backbone network. The method further includes embedding, via the deep learning backbone network, the primary video segment into a first feature output. The method further includes providing the first feature output to a first perception network to generate a first set of probability distribution outputs indicating a temporal location of a discontinuous point associated with the primary video segment. The method further includes generating a first loss function based on the first set of probability distribution outputs. The method further includes optimizing the deep learning backbone network, by backpropagation of the first loss function.[French]
L'invention concerne un procédé et un appareil de formation. Le procédé consiste : à introduire un segment vidéo primaire, représentant une concaténation d'un premier et d'un second segment vidéo non adjacents obtenus à partir d'une source vidéo, dans un réseau fédérateur d'apprentissage profond ; à intégrer, par l'intermédiaire du réseau fédérateur d'apprentissage profond, le segment vidéo primaire dans une première sortie de caractéristiques ; à fournir la première sortie de caractéristiques à un premier réseau de perception pour générer un premier ensemble de sorties de distribution de probabilités indiquant un emplacement temporel d'un point discontinu associé au segment vidéo primaire ; à générer une première fonction de perte basée sur le premier ensemble de sorties de distribution de probabilités ; à optimiser le réseau fédérateur d'apprentissage profond, par rétropropagation de la première fonction de perte.