济宁济信服信息技术服务有限公司2026-05-23
支持。系统构建以订单池、设备占用表、物料日历为状态,以调度决策为动作的马尔可夫决策过程,采用近端策略优化(PPO)或软演员-评论家(SAC)算法训练排程智能体。相比传统启发式方法,强化学习排程在高动态环境中表现出更强的自适应能力,并可不断通过离线仿真平台迭代提升。
本回答由 济宁济信服信息技术服务有限公司 提供
济宁济信服信息技术服务有限公司
联系人: 张文龙
手 机: 17560735085
网 址: https://www.tianxiagongdan.com