WO2024201124 - EYE-TRACKING-BASED OBJECT-FOCUSED VIDEO DESCRIPTION SYSTEM
National phase entry is expected:
Publication Number
WO/2024/201124
Publication Date
03.10.2024
International Application No.
PCT/IB2023/056504
International Filing Date
23.06.2023
Title **
[English]
EYE-TRACKING-BASED OBJECT-FOCUSED VIDEO DESCRIPTION SYSTEM
[French]
SYSTÈME D'AUDIODESCRIPTION FOCALISÉ SUR UN OBJET BASÉ SUR UN SUIVI OCULAIRE
Applicants **
NEC LABORATORIES EUROPE GMBH
Kurfuersten-Anlage 36
69115 Heidelberg, DE
Inventors
SHALINI, Shalini
c/o NEC Laboratories Europe GmbH
Kurfuersten-Anlage 36
69115 Heidelberg, DE
GONG, Na
c/o NEC Laboratories Europe GmbH
Kurfuersten-Anlage 36
69115 Heidelberg, DE
Priority Data
63/455,611
30.03.2023
US
Application details
| Total Number of Claims/PCT | * |
| Number of Independent Claims | * |
| Number of Priorities | * |
| Number of Multi-Dependent Claims | * |
| Number of Drawings | * |
| Pages for Publication | * |
| Number of Pages with Drawings | * |
| Pages of Specification | * |
| * | |
| * | |
International Searching Authority |
EPO
* |
| Applicant's Legal Status |
Legal Entity
* |
| * | |
| * | |
| * | |
| * | |
| Entry into National Phase under |
Chapter I
* |
| Translation |
|
Recalculate
* The data is based on automatic recognition. Please verify and amend if necessary.
** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.
Quotation for National Phase entry
| Country | Stages | Total | |
|---|---|---|---|
| China | Filing | 1093 | |
| EPO | Filing, Examination | 4684 | |
| Japan | Filing | 530 | |
| South Korea | Filing | 575 | |
| USA | Filing, Examination | 2635 |

Total: 9517 USD
The term for entry into the National Phase has expired. This quotation is for informational purposes only
Abstract[English]
A method for generating attention based video description using eye-tracking includes obtaining, using an eye-tracker device, raw gaze data associated with a user watching at least a portion of video data comprising a plurality of frames. The method further includes identifying attention objects and extracting one or more frames from the plurality of frames. The method also includes generating one or more individual textual reports for each of the identified attention objects based on the one or more extracted frames and outputting the one or more second individual textual reports that describe the video data in context of each of the identified attention objects. In some embodiments, the one or more individual textual reports are generated based on optimizing generated descriptions for the one or more individual textual reports by utilizing a name entity recognition model and a deep learning-based image semantic segmentation model.[French]
Selon l'invention, un procédé de génération d'une audiodescription basée sur l'attention à l'aide d'un suivi oculaire consiste à obtenir, à l'aide d'un dispositif de suivi oculaire, des données de regard brutes associées à un utilisateur regardant au moins une partie de données vidéo comprenant une pluralité de trames. Le procédé consiste en outre à identifier des objets d'attention et à extraire une ou plusieurs trames de la pluralité de trames. Le procédé consiste également à générer un ou plusieurs rapports textuels individuels pour chacun des objets d'attention identifiés sur la base de la ou des trames extraites et à délivrer le ou les seconds rapports textuels individuels qui décrivent les données vidéo dans le contexte de chacun des objets d'attention identifiés. Dans certains modes de réalisation, le ou les rapports textuels individuels sont générés sur la base d'une optimisation de descriptions générées pour le ou les rapports textuels individuels en utilisant un modèle de reconnaissance d'entité de nom et un modèle de segmentation sémantique d'image basé sur un apprentissage profond.