WO2024147052 - REDUCING BIAS IN VISUAL SPEECH RECOGNITION

National phase entry is expected:
Publication Number WO/2024/147052
Publication Date 11.07.2024
International Application No. PCT/IB2023/062875
International Filing Date 18.12.2023
Title **
[English] REDUCING BIAS IN VISUAL SPEECH RECOGNITION
[French] RÉDUCTION DE BIAIS DANS UNE RECONNAISSANCE VOCALE VISUELLE
Applicants **
TECHNOLOGY INNOVATION INSTITUTE – SOLE PROPRIETORSHIP LLC Accelerator Building 2 Southeast Sector 45-01 Khalifa City, Abu Dhabi, AE
Inventors
WU, Kebin Accelerator Building 2 Southeast Sector 45-01 Khalifa City, Abu Dhabi, AE
COJOCARU, Elena-Ruxandra Accelerator Building 2 Southeast Sector 45-01 Khalifa City, Abu Dhabi, AE
ALMAZROUEI, Ebtesam Accelerator Building 2 Southeast Sector 45-01 Khalifa City, Abu Dhabi, AE
Priority Data
18/149,476   03.01.2023   US
front page image
Application details
Total Number of Claims/PCT *
Number of Independent Claims *
Number of Priorities *
Number of Multi-Dependent Claims *
Number of Drawings *
Pages for Publication *
Number of Pages with Drawings *
Pages of Specification *
*
*
International Searching Authority
*
Applicant's Legal Status
*
*
*
*
*
Entry into National Phase under
*
Translation

Recalculate

* The data is based on automatic recognition. Please verify and amend if necessary.

** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.

Quotation for National Phase entry

Country StagesTotal
China Filing1181
EPO Filing, Examination7552
Japan Filing597
South Korea Filing575
USA Filing, Examination2710
MasterCard Visa

Total: 12615

The term for entry into the National Phase has expired. This quotation is for informational purposes only

Abstract[English] Systems, methods, and computer-readable media for reducing a bias in visual speech recognition (VSR). In the present embodiments, a comprehensive analysis of the bias (e.g., determining type and severity of the bias) can be performed for each sample in the training data, such as age, gender, and ethnicity, for example. Further, synthetic training data can be generated for under-represented groups using various techniques, such as generative adversarial networks (GANs), for example. Additionally, synthetic video generation can be performed using different modes (e.g., six modes) to ensure quantities and diversity in the synthetic samples. A combination of the real data and the synthetic training data generated can be used to train a VSR model.[French] L'invention concerne des systèmes, des procédés et des supports lisibles par ordinateur pour réduire un biais dans une reconnaissance vocale visuelle (VSR). Dans les modes de réalisation de la présente invention, une analyse complète du biais (par exemple, détermination du type et de la gravité du biais) peut être effectuée pour chaque échantillon dans les données d'apprentissage, telles que l'âge, le sexe et l'ethnicité, par exemple. En outre, des données d'apprentissage synthétiques peuvent être générées pour des groupes sous-représentés à l'aide de diverses techniques, telles que des réseaux antagonistes génératifs (GAN), par exemple. De plus, une génération de vidéo synthétique peut être effectuée à l'aide de différents modes (par exemple, six modes) pour assurer des quantités et une diversité dans les échantillons synthétiques. Une combinaison des données réelles et des données d'apprentissage synthétiques générées peut être utilisée pour entraîner un modèle de VSR.
An error has occurred. This application may no longer respond until reloaded. Reload 🗙