WO2026093822 - CONTROLLABLE AGENTS WITH STYLE IN OPEN WORLD GAMES THROUGH PARAMETERIZED REWARD WEIGHT UNIVERSAL VALUE FUNCTION APPROXIMATORS
National phase entry is expected:
Publication Number
WO/2026/093822
Publication Date
07.05.2026
International Application No.
PCT/IB2025/059626
International Filing Date
24.09.2025
Title **
[English]
CONTROLLABLE AGENTS WITH STYLE IN OPEN WORLD GAMES THROUGH PARAMETERIZED REWARD WEIGHT UNIVERSAL VALUE FUNCTION APPROXIMATORS
[French]
AGENTS POUVANT ÊTRE COMMANDÉS AVEC UN STYLE DANS DES JEUX EN MONDE OUVERT PAR L'INTERMÉDIAIRE D'APPROXIMATEURS DE FONCTION DE VALEUR UNIVERSELLE DE POIDS DE RÉCOMPENSE PARAMÉTRÉS
Applicants **
SONY GROUP CORPORATION
Inventors
CAPOBIANCO, Roberto
BURCH, Neil
RICCIO, Francesco
DAVIDSON, Josh
MORRILL, Dustin
OLLER, Declan
WURMAN, Peter
Priority Data
18/928,993
28.10.2024
US
Application details
| Total Number of Claims/PCT | * |
| Number of Independent Claims | * |
| Number of Priorities | * |
| Number of Multi-Dependent Claims | * |
| Number of Drawings | * |
| Pages for Publication | * |
| Number of Pages with Drawings | * |
| Pages of Specification | * |
| * | |
| Number of Office Actions | * |
| * | |
International Searching Authority |
EPO
* |
| Recordal of a Change of the Applicant's Name/Address |
Change of Applicant's Name and Address
* |
| Type of Assignment |
The Standard Agent's Assignment
* |
| Applicant's Legal Status |
Legal Entity
* |
| * | |
| * | |
| * | |
| * | |
| * | |
| Entry into National Phase under |
Chapter I
* |
| Patent Delivery |
Send the Letters Patent by Courier
* |
| Translation |
|
* The data is based on automatic recognition. Please verify and amend if necessary.
** IP-Coster compiles data from publicly available sources. If this data includes your personal information, you can contact us to request its removal.
Quotation for National Phase entry
| Country | Stages | Total | |
|---|---|---|---|
| China | Filing, Examination, Granting | 2169 | |
| EPO | Filing, Examination, Granting | 10851 | |
| Japan | Filing, Examination, Granting | 2357 | |
| South Korea | Filing, Examination, Granting | 2334 | |
| USA | Filing, Examination, Granting | 4740 |

Total:
22,451
Abstract[English]
A single policy can be trained to handle the user selection of parameters across a predetermined range for each component of an artificial intelligent agent within a domain. The agent can be trained across a number of weights within the desired range for each component. These weights determine how much of a reward portion for each component should be considered by the agent during training. Thus, an improved formulation can be realized for UVFA-like goals based on compositional reward functions parameterized by their components' weights. Additionally, a set of reward components has been determined for the domain of autonomous racing games that, when combined with the improved UVFA formulation, allows training a single racing agent that generalizes over continuous behaviors in multiple dimensions. This can be used by game designers to tune the skill and personality of a trained agent.[French]
Une seule politique peut être entraînée pour gérer la sélection par l'utilisateur de paramètres sur une plage prédéterminée pour chaque composant d'un agent intelligent artificiel dans un domaine. L'agent peut être entraîné sur un certain nombre de poids dans la plage souhaitée pour chaque composant. Ces poids déterminent la quantité d'une partie de récompense pour chaque composant devant être considérée par l'agent pendant l'entraînement. Ainsi, une formulation améliorée peut être réalisée pour des objectifs de type UVFA à partir de fonctions de récompense de composition paramétrées par leurs poids de composants. De plus, un ensemble de composants de récompense a été déterminé pour le domaine de jeux de course autonomes qui, lorsqu'ils sont combinés à la formulation d'UVFA améliorée, permettent d'entraîner un agent de course unique qui généralise sur des comportements continus dans de multiples dimensions. Ceci peut être utilisé par des concepteurs de jeu pour régler la compétence et la personnalité d'un agent entraîné.