Todos los días se publican un sinfín de anuncios que generan un montón de incógnitas para los anunciantes. Para ello, se utiliza el aprendizaje por refuerzo que tiene como objetivo maximizar las recompensas. Esta herramienta busca mayormente generar a clics sobre la publicidad.
A través de experimentos en cinco anuncios, se explica que con el aprendizaje por refuerzo se pueden optimizar los mensajes publicitarios y sacar provecho de los beneficios a gran escala. Se deben tomar en cuenta los anuncios con mejores tasas de clics sin desperdiciar impresiones valiosas.
Al principio se les asigna un valor igual a todos los anuncios. Según el comportamiento de la audiencia, el agente de aprendizaje por refuerzo adopta el de mayor rendimiento.