WO2024201124 - EYE-TRACKING-BASED OBJECT-FOCUSED VIDEO DESCRIPTION SYSTEM

National phase entry is expected:
Publication Number WO/2024/201124
Publication Date 03.10.2024
International Application No. PCT/IB2023/056504
International Filing Date 23.06.2023
Title **
[English] EYE-TRACKING-BASED OBJECT-FOCUSED VIDEO DESCRIPTION SYSTEM
[French] SYSTÈME D'AUDIODESCRIPTION FOCALISÉ SUR UN OBJET BASÉ SUR UN SUIVI OCULAIRE
Applicants **
NEC LABORATORIES EUROPE GMBH Kurfuersten-Anlage 36 69115 Heidelberg, DE
Inventors
SHALINI, Shalini c/o NEC Laboratories Europe GmbH Kurfuersten-Anlage 36 69115 Heidelberg, DE
GONG, Na c/o NEC Laboratories Europe GmbH Kurfuersten-Anlage 36 69115 Heidelberg, DE
Priority Data
63/455,611   30.03.2023   US
front page image
Application details
Total Number of Claims/PCT *
Number of Independent Claims *
Number of Priorities *
Number of Multi-Dependent Claims *
Number of Drawings *
Pages for Publication *
Number of Pages with Drawings *
Pages of Specification *
*
*
International Searching Authority
*
Applicant's Legal Status
*
*
*
*
*
Entry into National Phase under
*
Translation

Recalculate

* The data is based on automatic recognition. Please verify and amend if necessary.

** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.

Quotation for National Phase entry

Country StagesTotal
China Filing1093
EPO Filing, Examination4684
Japan Filing530
South Korea Filing575
USA Filing, Examination2635
MasterCard Visa

Total: 9517

The term for entry into the National Phase has expired. This quotation is for informational purposes only

Abstract[English] A method for generating attention based video description using eye-tracking includes obtaining, using an eye-tracker device, raw gaze data associated with a user watching at least a portion of video data comprising a plurality of frames. The method further includes identifying attention objects and extracting one or more frames from the plurality of frames. The method also includes generating one or more individual textual reports for each of the identified attention objects based on the one or more extracted frames and outputting the one or more second individual textual reports that describe the video data in context of each of the identified attention objects. In some embodiments, the one or more individual textual reports are generated based on optimizing generated descriptions for the one or more individual textual reports by utilizing a name entity recognition model and a deep learning-based image semantic segmentation model.[French] Selon l'invention, un procédé de génération d'une audiodescription basée sur l'attention à l'aide d'un suivi oculaire consiste à obtenir, à l'aide d'un dispositif de suivi oculaire, des données de regard brutes associées à un utilisateur regardant au moins une partie de données vidéo comprenant une pluralité de trames. Le procédé consiste en outre à identifier des objets d'attention et à extraire une ou plusieurs trames de la pluralité de trames. Le procédé consiste également à générer un ou plusieurs rapports textuels individuels pour chacun des objets d'attention identifiés sur la base de la ou des trames extraites et à délivrer le ou les seconds rapports textuels individuels qui décrivent les données vidéo dans le contexte de chacun des objets d'attention identifiés. Dans certains modes de réalisation, le ou les rapports textuels individuels sont générés sur la base d'une optimisation de descriptions générées pour le ou les rapports textuels individuels en utilisant un modèle de reconnaissance d'entité de nom et un modèle de segmentation sémantique d'image basé sur un apprentissage profond.
An error has occurred. This application may no longer respond until reloaded. Reload 🗙