WO2024147052 - REDUCING BIAS IN VISUAL SPEECH RECOGNITION
National phase entry is expected:
Publication Number
WO/2024/147052
Publication Date
11.07.2024
International Application No.
PCT/IB2023/062875
International Filing Date
18.12.2023
Title **
[English]
REDUCING BIAS IN VISUAL SPEECH RECOGNITION
[French]
RÉDUCTION DE BIAIS DANS UNE RECONNAISSANCE VOCALE VISUELLE
Applicants **
TECHNOLOGY INNOVATION INSTITUTE – SOLE PROPRIETORSHIP LLC
Accelerator Building 2
Southeast Sector 45-01
Khalifa City, Abu Dhabi, AE
Inventors
WU, Kebin
Accelerator Building 2
Southeast Sector 45-01
Khalifa City, Abu Dhabi, AE
COJOCARU, Elena-Ruxandra
Accelerator Building 2
Southeast Sector 45-01
Khalifa City, Abu Dhabi, AE
ALMAZROUEI, Ebtesam
Accelerator Building 2
Southeast Sector 45-01
Khalifa City, Abu Dhabi, AE
Priority Data
18/149,476
03.01.2023
US
Application details
| Total Number of Claims/PCT | * |
| Number of Independent Claims | * |
| Number of Priorities | * |
| Number of Multi-Dependent Claims | * |
| Number of Drawings | * |
| Pages for Publication | * |
| Number of Pages with Drawings | * |
| Pages of Specification | * |
| * | |
| * | |
International Searching Authority |
IP Australia
* |
| Applicant's Legal Status |
Legal Entity
* |
| * | |
| * | |
| * | |
| * | |
| Entry into National Phase under |
Chapter I
* |
| Translation |
|
Recalculate
* The data is based on automatic recognition. Please verify and amend if necessary.
** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.
Quotation for National Phase entry
| Country | Stages | Total | |
|---|---|---|---|
| China | Filing | 1181 | |
| EPO | Filing, Examination | 7552 | |
| Japan | Filing | 597 | |
| South Korea | Filing | 575 | |
| USA | Filing, Examination | 2710 |

Total: 12615 USD
The term for entry into the National Phase has expired. This quotation is for informational purposes only
Abstract[English]
Systems, methods, and computer-readable media for reducing a bias in visual speech recognition (VSR). In the present embodiments, a comprehensive analysis of the bias (e.g., determining type and severity of the bias) can be performed for each sample in the training data, such as age, gender, and ethnicity, for example. Further, synthetic training data can be generated for under-represented groups using various techniques, such as generative adversarial networks (GANs), for example. Additionally, synthetic video generation can be performed using different modes (e.g., six modes) to ensure quantities and diversity in the synthetic samples. A combination of the real data and the synthetic training data generated can be used to train a VSR model.[French]
L'invention concerne des systèmes, des procédés et des supports lisibles par ordinateur pour réduire un biais dans une reconnaissance vocale visuelle (VSR). Dans les modes de réalisation de la présente invention, une analyse complète du biais (par exemple, détermination du type et de la gravité du biais) peut être effectuée pour chaque échantillon dans les données d'apprentissage, telles que l'âge, le sexe et l'ethnicité, par exemple. En outre, des données d'apprentissage synthétiques peuvent être générées pour des groupes sous-représentés à l'aide de diverses techniques, telles que des réseaux antagonistes génératifs (GAN), par exemple. De plus, une génération de vidéo synthétique peut être effectuée à l'aide de différents modes (par exemple, six modes) pour assurer des quantités et une diversité dans les échantillons synthétiques. Une combinaison des données réelles et des données d'apprentissage synthétiques générées peut être utilisée pour entraîner un modèle de VSR.