Sortir à JOUY EN JOSAS
dans les Yvelines
ONLINE LEARNING FOR DYNAMIC SERVICE MODE CONTROL
- Sorties Conférence
- Date : le jeudi 19 février 2026
- Horaire : 11h15 à 12h30
- Adresse: 1 rue de la libération,
- Organisateur: HEC Paris
- Ref annonce gratuite Conférence: 333289
Systèmes d'information et gestion des opérations
Intervenant : Yue Hu (Stanford Graduate School of Business)
Salle Bernard Ramanantsoa
Résumé :
Les systèmes de services modernes adoptent de plus en plus de nouvelles modalités permises par les technologies émergentes, telles que les services assistés par l'IA, afin de mieux équilibrer qualité et efficacité. Motivés par cette tendance, nous étudions le contrôle dynamique du mode de service dans une file d'attente à un seul serveur avec deux modes commutables, chacun ayant un taux de service distinct et une distribution de récompenses inconnue. L'objectif est de maximiser la moyenne à long terme des récompenses cumulées attendues moins les coûts de maintien, atteignable avec des politiques non anticipatives et dépendantes de l'état. Pour résoudre ce problème, nous établissons d'abord l'optimalité d'une politique de seuil sous information complète sur les primitives du problème. Lorsque les distributions de récompenses sont inconnues mais que des échantillons sont observables, nous proposons un algorithme d'apprentissage en ligne qui utilise des estimations de la borne supérieure de confiance (UCB) des paramètres inconnus pour apprendre de manière adaptative le seuil optimal. Notre algorithme atteint un regret statistiquement quasi optimal et démontre d'excellentes performances numériques. De plus, lorsque des informations partielles supplémentaires sur la politique optimale sont disponibles ex ante (en particulier, une borne inférieure non triviale du seuil optimal), nous démontrons qu'une politique gloutonne épisodique atteint un regret constant grâce à une propriété d'exploration libre intrinsèque à ce contexte particulier. Sur le plan méthodologique, nous développons une nouvelle décomposition du regret et une analyse basée sur les cycles régénératifs, offrant ainsi des outils généraux pour le contrôle des files d'attente par apprentissage. Enfin, nous présentons une étude de cas dans le domaine de la santé, portant sur la messagerie patient assistée par l'IA, afin de démontrer l'utilité pratique de notre approche.
lng: 02°10'8.45"E