Este trabajo presenta el diseño de estrategias de gestión inteligente de la energía basadas en aprendizaje por refuerzo (Reinforcement Learning, RL), aplicadas a redes eléctricas inteligentes con arquitectura peer-to-peer (P2P). Se entrena un agente de basado en Soft-Actor Critic discreto para gestionar una microrred compuesta por consumidores y prosumidores que comparten una batería comunitaria con el objetivo de minimizar costos de la red respondiendo a precios dinamicos provenientes del mercado energetico. En adicion, se aborda la problematica de entrenar un agente (Proximal Policy Optimization) para el manejo de precios de parte del provedor de servicios, seleccionando precios para minimizar el costo para cada una de las partes involucradas (sujeto a coeficientes de prioridad), y minimizando la huella de carbono. Ambos enfoques fueron implementados y evaluados en entornos de simulación, demostrando la viabilidad y el potencial del aprendizaje por refuerzo para optimizar tanto la operación local de microrredes como el diseño dinámico de precios en mercados energéticos distribuidos.