(12)发明专利
(10)授权公告号 CN 113316188 B(45)授权公告日 2022.05.17
(21)申请号 202110498811.9(22)申请日 2021.05.08(65)同一申请的已公布的文献号
申请公布号 CN 113316188 A(43)申请公布日 2021.08.27
(73)专利权人 北京科技大学地址 100083 北京市海淀区学院路30号(72)发明人 张海君 王东 管婉青 卢同威 (74)专利代理机构 北京市广友专利事务所有限
责任公司 11237
专利代理师 张仲波 付忠林(51)Int.Cl.
H04W 28/02(2009.01)H04W 28/16(2009.01)G06N 3/08(2006.01)G06N 3/04(2006.01)G06K 9/62(2022.01)H04W 28/24(2009.01)
(54)发明名称
一种支持AI引擎的接入网智能切片管控方法及装置(57)摘要
本发明公开了一种支持AI引擎的接入网智能切片管控方法及装置,该方法包括:测量用户设备的流量细粒度,对用户设备进行识别与分类;在接入网内创建和编排出一系列合适的接入网切片,将用户设备分配到合适的接入网切片内;当用户数据流量类型发生变动时,实时改变用户设备所属的接入网切片;在接入网切片运行过程中,根据从基站收集到的信息,基于预设的深度强化学习算法,对接入网切片中的片间资源调度进行管控,从而实现接入网切片所使用的基站无线资源随着接入网内用户设备的接入情况进行自适应优化。本发明可以实现接入网切片的自动创建编排、用户设备分配以及切片更改删除等功能。
(56)对比文件
CN 111683381 A,2020.09.18CN 110381541 A,2019.10.25CN 107682135 A,2018.02.09CN 111901168 A,2020.11.06JP 6525367 B1,2019.06.05
秦爽等.基于多智体强化学习的接入网络切片动态切换.《电子科技大学学报》.2020,(第02期),
史清江等.面向5G/B5G通信的智能无线资源管理技术.《中国科学基金》.2020,
孙国林等.基于深度强化学习的应急物联网切片资源预留算法.《通信学报》.2020,(第09期),
Wanqing Guan等.Analysis of Traffic Performance on Network Slicing Using Complex Network Theory.《IEEE Transactions on Vehicular Technology》.2020,
审查员 尹翊菲
权利要求书3页 说明书9页 附图2页
CN 113316188 BCN 113316188 B
权 利 要 求 书
1/3页
1.一种支持AI引擎的接入网智能切片管控方法,其特征在于,包括:测量用户设备的流量细粒度,根据流量细粒度对用户设备进行识别与分类;基于对用户设备的识别与分类结果,在接入网内创建和编排出一系列符合用户设备要求的接入网切片,将用户设备分配到对应的接入网切片内;并在用户设备的数据流量类型发生变动时,实时改变用户设备所属的接入网切片;其中,具有不同数据流量特征的用户设备被分配到不同的接入网切片中;
在接入网切片运行过程中,根据从基站收集到的信息,基于预设的深度强化学习算法,对接入网切片中的片间资源调度进行管控,从而实现接入网切片所使用的基站无线资源随着接入网内用户设备的接入情况进行自适应优化;
所述从基站收集到的信息包括:每个接入网切片的吞吐量信息、用户设备的时延信息以及用户设备的信道质量指示反馈信息;
所述预设的深度强化学习算法包括:双重深度Q网络算法DDQN、决斗深度Q网络算法Dueling DQN,以及异步优势Actor‑Critic算法A3C;
所述在接入网切片运行过程中,根据从基站收集到的信息,基于预设的深度强化学习算法,对接入网切片中的片间资源调度进行管控,包括:
将不同网络切片进行资源分配的过程转化为马尔可夫决策过程,将基站作为智能体,状态空间rates,动作空间
为多个不同的网络切片的当前数据吞吐速率
即时奖励
优化目标是在满足速率需求的同时,使得每个不同的
网络切片与其目标数据吞吐速率之差的绝对值和最小;其中,s(t)是t时刻的状态空间集合,包含了该时刻每个网络切片的吞吐速率;ratesi(t)表示t时刻第i个网络切片的吞吐速率;a(t)是t时刻的动作空间集合,集合中每个元素的下标n表示该元素是时刻t第n个网络切片要采取的动作,将分配给该网络切片的资源块数目增加一个;ri(t)表示第i个网络切片在时刻t进行资源分配后获得的奖励函数,其中rbi表示第i个网络切片所占用的资源块数量,RATESi(t)表示第i个网络切片速率要求;
在智能体的训练和学习过程中,基于预设的深度强化学习算法进行学习,智能体根据当前环境下输入的状态,在动作空间中选取特定动作,不断调整物理资源块的分配;其中,所述特定动作是为不同切片分配的无线资源;
通过观测系统回报以及系统状态转换,更新神经网络参数及有关状态信息来与环境进
从而实现最大化长期累积回报;行交互,
利用智能体稳定收敛后输出的动作对接入网切片进行无线资源的分配。2.如权利要求1所述的支持AI引擎的接入网智能切片管控方法,其特征在于,所述在接入网内创建和编排出一系列符合用户设备要求的接入网切片,将用户设备分配到对应的接入网切片内;并在用户设备的数据流量类型发生变动时,实时改变用户设备所属的接入网切片,包括:
2
CN 113316188 B
权 利 要 求 书
2/3页
在开源OpenAirInterface平台的软件定义无线电基站中的介质访问控制层实现切片间调度,以在接入网内创建和编排出一系列符合用户设备要求的接入网切片,将用户设备分配到对应的接入网切片内;并在用户设备的数据流量类型发生变动时,实时改变用户设备所属的接入网切片;并且将接入网切片的生命周期管理流程抽象为API管理接口,通过预设的通信协议对外提供管理接口。
3.如权利要求1所述的支持AI引擎的接入网智能切片管控方法,其特征在于,所述根据流量细粒度对用户设备进行识别与分类,包括:
采用预设的卷积神经网络根据流量细粒度对用户设备进行识别与分类;所述卷积神经网络的训练过程,包括:
将公共网络收集到的网络流量可视化为计算机的数字图像,构建移动流量数据图像集;然后使用所述移动流量数据图像集对所述卷积神经网络进行训练。
4.一种支持AI引擎的接入网智能切片管控装置,其特征在于,包括:接入网切片实现模块,用于测量用户设备的流量细粒度,根据流量细粒度对用户设备进行识别与分类;基于对用户设备的识别与分类结果,在接入网内创建和编排出一系列符合用户设备要求的接入网切片,将用户设备分配到对应的接入网切片内;并在用户设备的数据流量类型发生变动时,实时改变用户设备所属的接入网切片;其中,具有不同数据流量特征的用户设备被分配到不同的接入网切片中;
智能管控模块,用于在接入网切片运行过程中,根据从基站收集到的信息,基于预设的深度强化学习算法,对接入网切片中的片间资源调度进行管控,从而实现接入网切片所使用的基站无线资源随着接入网内用户设备的接入情况进行自适应优化;
所述从基站收集到的信息包括:每个接入网切片的吞吐量信息、用户设备的时延信息以及用户设备的信道质量指示反馈信息;
所述预设的深度强化学习算法包括:双重深度Q网络算法DDQN、决斗深度Q网络算法Dueling DQN,以及异步优势Actor‑Critic算法A3C;
所述在接入网切片运行过程中,根据从基站收集到的信息,基于预设的深度强化学习算法,对接入网切片中的片间资源调度进行管控,包括:
将不同网络切片进行资源分配的过程转化为马尔可夫决策过程,将基站作为智能体,状态空间rates,动作空间
为多个不同的网络切片的当前数据吞吐速率
即时奖励
优化目标是在满足速率需求的同时,使得每个不同的
网络切片与其目标数据吞吐速率之差的绝对值和最小;其中,s(t)是t时刻的状态空间集合,包含了该时刻每个网络切片的吞吐速率;ratesi(t)表示t时刻第i个网络切片的吞吐速率;a(t)是t时刻的动作空间集合,集合中每个元素的下标n表示该元素是时刻t第n个网络切片要采取的动作,将分配给该网络切片的资源块数目增加一个;ri(t)表示第i个网络切片在时刻t进行资源分配后获得的奖励函数,其中rbi
3
CN 113316188 B
权 利 要 求 书
3/3页
表示第i个网络切片所占用的资源块数量,RATESi(t)表示第i个网络切片速率要求;
在智能体的训练和学习过程中,基于预设的深度强化学习算法进行学习,智能体根据当前环境下输入的状态,在动作空间中选取特定动作,不断调整物理资源块的分配;其中,所述特定动作是为不同切片分配的无线资源;
通过观测系统回报以及系统状态转换,更新神经网络参数及有关状态信息来与环境进行交互,从而实现最大化长期累积回报;
利用智能体稳定收敛后输出的动作对接入网切片进行无线资源的分配。
4
CN 113316188 B
说 明 书
一种支持AI引擎的接入网智能切片管控方法及装置
1/9页
技术领域
[0001]本发明涉及无线通信技术领域,特别涉及一种基于开源OpenAirInterface(OAI)平台实现的支持人工智能(AI)引擎的接入网智能切片管控方法及装置。
背景技术
[0002]在无线传输领域,现有的无线通信系统在下行控制资源的交互传输过程中,不同的用户设备(User Equipment,UE)在接入同一个基站后,这些用户之间共享所有的下行资源。然而,单个用户的数据流量有可能会对其他用户产生干扰,用户之间的相互隔离难以保证。不同用户之间争抢无线资源的行为也会导致某些用户的服务质量无法保证,而且会导致无线资源利用率的降低。
发明内容
[0003]本发明提供了一种支持AI引擎的接入网智能切片管控方法及装置,以解决无线通信系统中某些用户服务质量无法保证且无线资源利用率低的技术问题。[0004]为解决上述技术问题,本发明提供了如下技术方案:[0005]一方面,本发明提供了一种支持AI引擎的接入网智能切片管控方法,该支持AI引擎的接入网智能切片管控方法包括:[0006]测量用户设备的流量细粒度,根据流量细粒度对用户设备进行识别与分类;[0007]基于对用户设备的识别与分类结果,在接入网内创建和编排出一系列符合用户设备要求的接入网切片,将用户设备分配到对应的接入网切片内;并在用户设备的数据流量类型发生变动时,实时改变用户设备所属的接入网切片;其中,具有不同数据流量特征的用户设备被分配到不同的接入网切片中;[0008]在接入网切片运行过程中,根据从基站收集到的信息,基于预设的深度强化学习算法,对接入网切片中的片间资源调度进行管控,从而实现接入网切片所使用的基站无线资源随着接入网内用户设备的接入情况进行自适应优化。[0009]进一步地,所述在接入网内创建和编排出一系列符合用户设备要求的接入网切片,将用户设备分配到对应的接入网切片内;并在用户设备的数据流量类型发生变动时,实时改变用户设备所属的接入网切片,包括:
[0010]在开源OpenAirInterface平台的软件定义无线电基站中的介质访问控制层实现切片间调度,以在接入网内创建和编排出一系列符合用户设备要求的接入网切片,将用户设备分配到对应的接入网切片内;并在用户设备的数据流量类型发生变动时,实时改变用户设备所属的接入网切片;并且将接入网切片的生命周期管理流程抽象为API管理接口,通过预设的通信协议对外提供管理接口。[0011]进一步地,所述根据流量细粒度对用户设备进行识别与分类,包括:[0012]采用预设的卷积神经网络根据流量细粒度对用户设备进行识别与分类;[0013]所述卷积神经网络的训练过程,包括:
5
CN 113316188 B[0014]
说 明 书
2/9页
将公共网络收集到的网络流量可视化为计算机的数字图像,构建移动流量数据图
像集;然后使用所述移动流量数据图像集对所述卷积神经网络进行训练。[0015]进一步地,所述从基站收集到的信息包括:每个接入网切片的吞吐量信息、用户设备的时延信息以及用户设备的信道质量指示反馈信息。[0016]进一步地,所述预设的深度强化学习算法包括:双重深度Q网络算法DDQN、决斗深度Q网络算法Dueling DQN,以及异步优势Actor‑Critic算法A3C。[0017]进一步地,所述在接入网切片运行过程中,根据从基站收集到的信息,基于预设的深度强化学习算法,对接入网切片中的片间资源调度进行管控,包括:
[0018]将不同网络切片进行资源分配的过程转化为马尔可夫决策过程过程,将基站作为智能体,状态空间率rates,动作空间
为多个不同的网络切片的当前数据吞吐速
即时奖励
优化目标是在满足速率需求的同时,使得每个不同的
网络切片与其目标数据吞吐速率之差的绝对值和最小;[0019]其中,s(t)是t时刻的状态空间集合,包含了该时刻每个网络切片的吞吐速率;ratesi(t)表示t时刻第i个网络切片的吞吐速率;a(t)是t时刻的动作空间集合,集合中每个元素的下标n表示该元素是时刻t第n个网络切片要采取的动作,将分配给该网络切片的资源块数目增加一个;ri(t)表示第i个网络切片在时刻t进行资源分配后获得的奖励函数,其中rbi表示第i个网络切片所占用的资源块数量,RATESi(t)表示第i个网络切片速率要求。[0020]在智能体的训练和学习过程中,基于预设的深度强化学习算法进行学习,智能体根据当前环境下输入的状态,在动作空间中选取特定动作,不断调整物理资源块的分配;其中,所述特地动作是为不同切片分配的无线资源;[0021]通过观测系统回报以及系统状态转换,更新神经网络参数及有关状态信息来与环境进行交互,从而实现最大化长期累积回报;[0022]利用智能体稳定收敛后输出的动作对接入网切片进行无线资源的分配。[0023]进一步地,预设的深度强化学习算法为DDQN算法时,状态价值函数Q为:
[0024][0025]
梯度损失函数为:
DDQN2
[0026]L(θ):=E[(Q‑Q(s,a;θ))]kks,aπk[0027]其中,θR(t)为第k次迭代的即时回报,s,a为当前k为第k次迭代的神经网络参数,状态与执行动作,argmax为常用数学表达式,表示函数取得最大值时对应元素值的大小;Es,a[·]为求均值操作。[0028]进一步地,所述预设的深度强化学习算法为Dueling DQN算法时,状态价值函数Q为:
6
CN 113316188 B[0029]
说 明 书
3/9页
梯度损失函数为:
Dueling2
[0031]L(θ):=E[(Q‑Q(s,a;θ))]kks,aπk[0032]其中,θγ为折扣因子,s,a为当前状态与动作,α,βk为第k次迭代的神经网络参数,分别为价值函数与优势函数独有的神经网络部分,ω为公共部分的网络参数;A与V分别是优势函数部分与价值函数部分,Qπ为采取此策略π时的状态价值函数值,并且Es,a[·]为求均值操作,
[0033][0034][0035][0036][0037]
[0030]
为求梯度操作。
进一步地,所述预设的深度强化学习算法为A3C算法时,优势函数为:
Critic网络中梯度损失函数为:
其中,θθγ为折扣因p,v为第k次迭代中actor网络与critic网络的神经网络参数,子,r为即时回报,s,a为当前状态与执行动作;A与V分别是优势函数部分与价值函数部分,
并且Es,a[·]为求均值操作,为求梯度操作。
另一方面,本发明还提供了一种支持AI引擎的接入网智能切片管控装置,该支持AI引擎的接入网智能切片管控装置包括:[0039]接入网切片实现模块,用于测量用户设备的流量细粒度,根据流量细粒度对用户设备进行识别与分类;基于对用户设备的识别与分类结果,在接入网内创建和编排出一系列符合用户设备要求的接入网切片,将用户设备分配到对应的接入网切片内;并在用户设备的数据流量类型发生变动时,实时改变用户设备所属的接入网切片;其中,具有不同数据流量特征的用户设备被分配到不同的接入网切片中;[0040]智能管控模块,用于在接入网切片运行过程中,根据从基站收集到的信息,基于预设的深度强化学习算法,对接入网切片中的片间资源调度进行管控,从而实现接入网切片所使用的基站无线资源随着接入网内用户设备的接入情况进行自适应优化。[0041]本发明提供的技术方案带来的有益效果至少包括:
[0042]本发明所提供的支持AI引擎的接入网智能切片管控方法能够针对当前网络通信环境,提供匹配的状态空间、动作空间以及奖励机制,对接入网不同网络切片进行智能管控,借助多种深度强化学习算法提高了基站无线资源调度效率。附图说明
[0043]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]图1为本发明实施例提供的接入网切片实现原理示意图;
[0038]
7
CN 113316188 B[0045]
说 明 书
4/9页
图2为本发明实施例提供的接入网智能切片管控系统架构图。
具体实施方式
[0046]为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
[0047]针对无线通信系统中某些用户服务质量无法保证且无线资源利用率低的问题,本实施例基于OAI平台开发了一套支持AI引擎的接入网智能切片管控系统,通过该支持AI引擎的接入网智能切片管控系统可以实现支持AI引擎的接入网智能切片管控方法。本实施例的支持AI引擎的接入网智能切片管控系统的设计思想为:借由深度强化学习(Deep Reinforcement Learning,DRL)等AI算法助力,实现了接入网切片的自动创建编排、用户设备UE分配、切片更改删除等功能。前端界面设计采用了Vue和Electron的技术,可以实现在Windows、MacOS、Linux下跨平台的桌面应用程序。整体功能采用组件化的设计思想,将对切片、用户、拓扑图绘制等操作编写为单独的组件,降低了各个功能的耦合程度。各个组件之间通过使用VueX来互相传递信息,时频资源块的绘制使用Canvas技术进行绘制。采用的技术包括但不限于:D3.js、Vue.js、ElementUI、Canvas、Axios.js、Node.js等。后端采用RESTful思想编写了一系列RAN管控的API。[0048]具体地,在本实施例中,为了实现AI引擎对接入网切片管控的接口,在OAI平台的软件定义无线电(software defined radio,SDR)基站中的介质访问控制层(Media Access Control,MAC)实现了切片间调度,即在此轮调度过程中,将原本需要分配给不同UE的无线资源先分配给接入网切片,然后在切片内部对其所属的UE进行切片内部调度,如图1所示。并且在此过程中,本实施例利用Socket以及HTTP等协议向外部提供了一整套切片生命周期管控的应用程序接口(Application Programming Interface,API),包括切片创建、用户分配、切片参数配置、切片更改删除等。这些切片管控的API接口为上文所述的AI引擎对接入网切片的智能管控提供了接入点。[0049]在本实施例中,该接入网智能切片管控系统的实现流程主要分为三部分,第一步是在接入网实现接入网切片、第二步是搭建接入网切片的管控系统,第三步是为第二步搭建的系统接入集成若干AI算法的AI引擎,以实现智能管控。[0050]一、接入网切片实现
[0051]本实施例在OAI基站中的MAC层实现了切片间调度,即在此轮调度过程中将原本需要分配给不同UE的无线资源先分配给接入网切片,然后在切片内部对其所属的UE进行切片内部调度,其实现原理如图1所示。通过这样的方式,实现了接入网切片的底层实现。在进行切片的编排创建、用户分配、更改删除、参数配置时,AI引擎会通过基站提供的API接口向其发送相应的JSON格式的消息。基站在接收到指令后会根据JSON消息完成一系列的接入网切片的操作。创建切片的参数有吞吐量Thrpt、切片类型、切片ID、资源分配指示等。在进行其他操作时,只需要根据API对发送的参数进行相应的修改。[0052]二、搭建接入网切片的管控系统,[0053]在前一步中,本实施例实现了接入网切片和整套切片生命流程管理的API接口。然后本实施例使用这一套接口设计了完整了前端操作应用程序,包括接入网切片的编排创建、更新、删除、更改UE等切片操作以及初始化OAI接入网、管理OAI核心网、AI引擎等操作。
8
CN 113316188 B
说 明 书
5/9页
还能对切片信息进行相应的展示、UE信息的展示,包括切片的参数信息、用户的速率、IMEI、UE所属切片等信息。[0054]三、接入网切片的管控系统接入AI引擎实现智能管控[0055]在未接入AI引擎智能管控时,需要手动在管理系统中对切片参数进行修改以满足不同用户的SLA以及优化基站资源利用率。为了减少嵌入在接收的服务水平协议(SLA)满意率(SSR)和频谱效率(SE)中的随机性和噪声的影响,提高运行多种接入网络切片时的资源利用效率,本实施例针对网络切片的资源分配提出了支持AI引擎的接入网切片智能调度方法,主要基于DDQN、Dueling DQN以及A3C等DRL算法进行设计。所设计的整个系统架构如图2所示。
[0056]基于上述,在本实施例中,该管控系统的具体实现流程如下:[0057]步骤1.在OAI基站中实现接入网切片,并开发对外管控的API接口;[0058]步骤2.设计集成DRL等智能调度算法的AI引擎组件,整个接入网切片智能管控系统将利用AI引擎对接入网切片进行智能管控;[0059]步骤3.初始化OAI接入网,运行核心网、基站,然后接入若干个UE。此时,切片智能管控系统开始对整个接入网切片进行智能资源分配;
[0060]步骤4.切片智能管控系统通过利用AI引擎对不同UE的流量进行细粒度测量,并识别与分类。然后再在接入网内创建和编排出一系列合适的接入网切片,并将UE分配到合适的接入网切片内。当用户数据流量类型发生变动时,AI引擎也会改变其所属的接入网切片;[0061]步骤5.在接入网切片运行过程中,AI引擎根据从基站收集到的信息,包括但不限于每个切片的吞吐量、UE的时延、UE的信道质量指示CQI反馈等信息。利用AI引擎中的智能
使得接入网切片所使用的基站无线资源可以算法对接入网切片中片间资源调度进行管控,
随着接入网内UE的接入情况进行自适应优化。[0062]其中,针对上述步骤1,本实施例通过在OAI平台基站中MAC层实现切片间调度的方式,实现接入网切片,并且将接入网切片的生命周期管理流程抽象为API管理接口通过HTTP和Socket协议对外提供管理接口。[0063]针对上述步骤2,本实施例设计多种AI算法,其中,设计的AI算法包括但不限于DQN、DDQN、DuelingDQN以及A3C等深度强化学习算法,通过设计的AI算法对接入网切片无线资源分配过程进行建模、学习、优化,并通过AI引擎以及上述步骤1所提供的管理接口实现对接入网切片的管理。[0064]针对上述步骤3,本实施例初始化基于开源OAI平台的软件定义无线电通信基站、用户设备UE、核心网。并运行接入网切片管控系统和AI引擎。初始化AI引擎中AI算法的项配置参数。包括每个接入切片的参数,AI引擎中强化学习算法要素:状态空间、奖励函数
[0065]
、动作空间
和神经网络超参数等。
针对上述步骤4中对UE的流量进行细粒度测量并识别与分类,AI引擎采用卷积神经网络CNN和预先采集好的移动端数据集对其进行训练,然后使用训练好的模型对连接到OAI接入网的用户的流量细粒度测量并识别与分类,将具有不同数据流量特征的用户UE分配到不同的接入网切片中。为训练AI引擎中流量识别与分类算法,本实施例使用移动流量数据图像集(IMTD17),即将公共网络收集到的网络流量可视化为计算机的数字图像,然后使用此数据集对CNN网络进行训练,在训练结束后,AI引擎可准确识别出接入网内UE数据流
9
CN 113316188 B
说 明 书
6/9页
量的图像,从而实现对UE的流量进行细粒度测量并识别与分类。
[0066]针对上述步骤5中对接入网切片中片间资源调度的智能管控,AI引擎能够基于双重深度Q网络(DDQN)、决斗深度Q网络(Dueling DQN)以及异步优势Actor‑Critic(A3C)等DRL算法进行学习,智能体通过在动作空间中选取特定动作(为不同切片分配的无线资源),通过观测系统回报、系统状态转换以及更新其有关环境的信息来与环境进行交互,最大化长期累积回报。利用智能体稳定收敛后输出的动作结果对多个接入网网络切片进行无线资源的分配。[0067]下面,本实施例聚焦于智能管控算法的实现。[0068]智能管控算法的实现:问题描述如下,在下行传输资源调度中,每个调度过程内如何将固定数量的物理资源块(Physical ResourceBlock,PRB)分配给多个网络切片,同时每个网络切片都要满足其服务等级协议(SLA)要求。针对此问题,本实施例设计的AI引擎组件采用多种DRL算法进行设计,将AI引擎对不同网络切片进行资源分配问题转化马尔可夫决策过程(MDP),将基站作为智能体,规定智能体的状态空间为
[0069]
,动作空间为,奖励函数为
,迭代轮数N,状态特征维度n,输出为累积回报最大时所对应的动作。
其中,状态空间
为多个不同的网络切片的当前数据
即时奖励与不同的
吞吐速率rates,动作空间
网络切片是否达到目标速率以及总分配的RB数量rb有关,即
优化目标是在满足速率需求的同时,使得每个不同的
网络切片与其目标数据吞吐速率之差的绝对值和最小。[0070]其中,s(t)是t时刻的状态空间集合,包含了该时刻每个网络切片的吞吐速率;ratesi(t),表示t时刻第i个网络切片的吞吐速率。a(t)是t时刻的动作空间集合,集合中每
将分配给该网络切片的个元素的下标n表示该元素是时刻t第n个网络切片要采取的动作,
资源块数目增加一个。ri(t)表示第i个网络切片在时刻t进行资源分配后获得的奖励函数,其中rbi表示第i个网络切片所占用的资源块数量,RATESi(t)表示第i个网络切片速率要求。[0071]AI引擎中网络切片资源分配的具体运行流程如下:[0072]步骤1:初始化OAI接入网,即运行核心网、基站,然后接入若干个UE。此时,切片智能管控系统开始对整个接入网切片进行管控;[0073]步骤2:切片智能管控系统通过使用AI引擎对不同UE的流量进行细粒度测量并识别与分类,然后再在接入网内创建和编排出一系列合适的接入网切片,并将UE分配到合适的接入网切片内。当用户数据流量类型发生变动时,AI引擎也会改变其所属的接入网切片;[0074]步骤3:AI引擎获取基站端各项数据,开始运行针对接入网网络切片的智能资源调度算法;
[0075]步骤5:基于DRL智能管控算法根据环境状态进行训练,智能体通过不断地与环境交互,根据奖励回报输出当前最优动作,并更新网络参数,直至最终收敛或完成训练次数,最终输出一个最优动作;
10
CN 113316188 B[0076]
说 明 书
7/9页
步骤6:AI引擎中智能管控算法的损失函数值逐渐趋于0时,算法收敛,训练过程完
成,当网络切片重新编排后的目标数据吞吐速率RATES或者目标时延τ发生变化时,重新开始上述学习步骤;[0077]步骤7:AI引擎将智能管控算法调度结果通过API接口传输回基站进行调度,从而完成接入网网络切片的智能资源管控。[0078]下面,对上述本实施例所使用的智能资源调度算法进行详细说明:[0079](1)算法1:基于DDQN的下行智能网络切片调度算法步骤如下:[0080]步骤1:初始化神经网络内的各项参数及智能体环境信息,包括基站最大PRB分配数,网络参数θ和θ′,智能体动作
[0081]
、状态以及重放经验池等。
步骤2:根据当前所处状态,进行动作的选取,动作中包括不同的网络切片的资源块数量的选择。动作的选取是依据当前状态所采取的资源分配策略导致的Q值大小,选取最大Q值对应的动作作为当前状态下输出的动作决策。[0082]步骤3:与环境进行交互,获得即时奖励,依据状态转移概率获得系统的下一状态,将其存储到经验池中。在之后学习的过程中,采取小批量样本进行学习,目的是减小数据之间的相关性。[0083]步骤4:判断存储的经验数量是否达到要求,若满足则开始进行训练。[0084]步骤5:采用DDQN算法,根据贝尔曼方程可获得即时奖励,进行学习,消除DQN里的过估计问题。[0085]步骤6:在学习和训练的过程中,系统的奖励会不断减少,当算法趋于收敛,即长期奖励函数在一定的范围内不在发生变化后,表明系统已获得最优资源分配,终止该下行网络切片资源分配的优化过程。[0086]在算法1中,当前Q网络中最大状态价值函数Q对应动作:
[0087][0088][0089]
状态价值函数Q为:
梯度损失函数为:
DDQN2
[0091]L(θ):=E[(Q‑Q(s,a;θ))]kks,aπk[0092]其中,θR(t)为第k次迭代的即时回报,s,a为当前k为第k次迭代的神经网络参数,状态与执行动作,argmax为常用数学表达式,表示函数取得最大值时对应元素值的大小。Es,a[·]为求均值操作。
[0093]算法1中引入了两个神经网络,以解决数据样本和网络训练之前的相关性,通过解耦目标Q值动作的选择和目标Q的计算这两步,来达到消除过度估计的问题。DDQN算法不是直接在目标Q网络里面找各个动作中最大Q值,而是先在当前Q网络中找出最大Q值对应的动作,然后利用这个选择出来的动作,在目标网络里面去计算目标Q值,以最大限度地减少估计的动作价值与目标动作值之间的差异来学习。最后,本实施例通过将智能算法输出的对不同网络切片的无线资源分配结果,通过API接口进行实施。[0094](2)算法2:基于Dueling DQN的下行智能网络切片调度算法步骤如下:
[0090]
11
CN 113316188 B[0095]
说 明 书
8/9页
与算法1运行步骤相同。与算法1区别在于:算法2将Q网络分成价值函数部分与优
无关,记
势函数部分,价值函数部分仅仅和智能体的环境状态有关,与具体采用的动作
α是价值函数部分独有的网络参数,优势函数部作V(S,θ,α),θ是公共部分的神经网络参数,
分同时与状态和动作有关,记作A(S,A,θ,β),β是优势函数部分独有的网络参数。使得最终Q网络输出由价值函数网络输出与优势函数网络输出线性组合。[0096]在算法2中,状态价值函数Q为:
[0097]
梯度损失函数为:
Dueling2
[0099]L(‑Qπ(s,a;θkθk):=Es,a[(Qk))][0100]其中,θγ为折扣因子,s,a为当前状态与动作,α,βk为第k次迭代的神经网络参数,分别为价值函数与优势函数独有的神经网络部分,ω为公共部分的网络参数;A与V分别是优势函数部分与价值函数部分,Qπ为采取此策略π时的状态价值函数值,并且Es,a[·]为求
[0098]
均值操作,
[0101][0102]
为求梯度操作。
(3)算法3:基于A3C的下行智能网络切片调度算法步骤如下:
步骤1:初始化神经网络内的各项参数及智能体环境信息,包括基站最大PRB分配
、状态
、学习率和折扣因子γ等。
数,网络参数θθ智能体动作p和v,
[0103]
步骤2:根据当前所处状态,将全局神经网络参数同步到本线程神经网络中。
[0104]步骤3:基于策略π(a(t)|s(t);θ)进行动作的选取,动作中包括不同的UE的资源p′块数量的选择。[0105]步骤4:与环境进行交互,获得即时奖励,依据状态转移概率获得系统的下一状态。在之后学习的过程中,采取小批量样本进行学习,目的是减小数据之间的相关性,计算累积回报并更新策略。[0106]步骤5:更新线程参数θ、θ,再异步更新全局参数θθp′v′p、v。[0107]步骤6:在学习和训练的过程中,系统的奖励会不断减少,当算法趋于收敛,即长期奖励函数在一定的范围内不在发生变化后,表明系统已获得最优资源分配,终止该PRB资源分配的优化过程。[0108]在算法3中,优势函数为:
[0109][0110][0111][0112][0113][0114][0115]
Critic网络中梯度损失函数为:
神经网络参数为:
其中,θθγ为折扣因p,v为第k次迭代中actor网络与critic网络的神经网络参数,子,r为即时回报,s,a为当前状态与执行动作;A与V分别是优势函数部分与价值函数部分,
12
CN 113316188 B
说 明 书
为求梯度操作。
9/9页
并且Es,a[·]为求均值操作,
[0116]
综上,本实施例在OAI基站中的MAC层实现了切片间调度从而完成接入网切片的搭
建,并利用HTTP以及Socket协议向外部提供了管控API接口,接着搭建了接入网切片管控系统,最后本实施例使用AI引擎及其集成的若干AI算法借由API管控接口实现接入网切片的智能管控。本实施例所设计的AI引擎封装了多种深度强化学习算法,包括双重深度Q学习、决斗深度Q学习以及异步优势演员评论家学习算法。AI引擎提供的系统模型能够针对当前网络通信环境,提供匹配的状态空间、动作空间以及奖励机制,对接入网不同网络切片进行智能管控,借助多种深度强化学习算法提高基站无线资源调度效率。[0117]此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
[0118]本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0119]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。[0120]还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。[0121]最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
13
说 明 书 附 图
图1
14
1/2页
CN 113316188 B
CN 113316188 B
说 明 书 附 图
2/2页
图2
15
因篇幅问题不能全部显示,请点此查看更多更全内容