多项选择题
AlphaGo的策略网络(Policy Network)主要表达了一个根据当前棋局状态获得下一个动作的函数,以下哪些学习方法被用来学习该函数()
A.监督学习B.强化学习C.非监督学习D.半监督学习
多项选择题 AlphaGo是哪几种人工智能实现途径的结合()
单项选择题 AlphaGo算法中的值网络(value network)是用于表达()
单项选择题 AlphaGo算法的主干是()