当 AI 技术能够学习战略性、创造性的行为,对我们会产生什么影响?
人工智能专家认为,每天的环境在快速变化。AI 的强化学习功能,能够帮助人力在动态环境中做出最优决策。
本文提供了几个入手的方向,帮助管理者判断自己是否忽视了强化学习可能解决的问题。
世界级围棋冠军李世石 (Lee Sedol) 在著名的 2016 年系列赛第二场比赛中,被 Deepmind 的阿尔法狗 (AlphaGo) 所走的第 37 步棋打乱了阵脚。他惶惑之至,结果花了将近 15 分钟才做出反应。这一步棋对于其他久经沙场的围棋选手来说也很奇怪,有评论员认为这是一步错棋。事实上,这是人工智能算法学习某种东西的经典例子,这种学习似乎不仅仅只是在数据中进行模式识别——学习一些战略性甚至创造性的东西。
实际上,除了给算法提供过去围棋冠军下棋的例子之外,Deepmind 的开发者还通过让阿尔法狗与自己进行数百万场比赛来对其训练。在这些比赛中,系统有机会探索新的举动和策略,然后评估它们是否提升了表现。通过这一切试错,它发现了一种令世界上最优秀的棋手都惊讶不已的下棋方式。
如果说这种具有创造能力的人工智能看起来不同于大多数企业在应用机器学习时最终使用的聊天机器人和预测模型的话,那是因为事实确实如此。像阿尔法狗这样的下棋系统使用的不是利用历史数据生成预测的那种机器学习,而是强化学习——一种擅长优化任务的成熟的机器学习技术。
为做到这一点,一个代理程序会随着时间的推移采取一系列行动,并且每个行动依据的都是前一个行动的结果。简单地说,它的运行是通过尝试不同的方法,并弄明白——强化——那些似乎比其他方法更有效的方法。有了足够的尝试,你就可以强化自己突破目前最好方法的方式,并发现一个新的最佳方式来完成你的任务。
然而,尽管强化学习被证明十分有用,但它主要用于学术界以及视频游戏和机器人等小众领域。奈飞 (Netflix)、Spotify 和谷歌等企业已经开始使用它,但多数企业依然滞后。然而,机会无处不在。事实上, 每当你必须按顺序做出决策的时候——人工智能从业者称之为顺序决策任务——都有机会部署强化学习。
来看看现实世界中的许多问题,它们需要决定如何随着时间的推移而采取行动,哪些地方存在需要最大化(或最小化)的东西,哪些问题你从来没有明确给出正确的解决方案。比如:
你应该如何将数据流量传递到不同的服务器,或如何决定关闭数据中心中的哪些服务器?
当你在模拟构建一个分子来开发一种突破性的药物时,你如何确定接下来要添加哪种试剂?
如果你想卖出大量股票,你如何在一天内谨慎地小批卖出,以尽量减少股价下跌的幅度?
如果你是企业领导者,可能有许多你想自动化或优化的流程,但这些流程太过动态化,或者有太多的例外情况和极端例子,无法编程到软件中。通过试错,强化学习算法甚至可以学会解决最动态化的优化问题——为在快速变化的环境中实现自动化和个性化开辟了新的途径。
强化学习能有何作为许多企业将机器学习系统视为“预测机器”,并根据交易模式或网站分析行为等数据将算法用于预测现金流或客户流失等情况。这些系统通常使用所谓的监督机器学习。利用监督学习,你通常可以做出预测:股票可能会在接下来的六个小时里上涨四个点。然后,在你做出预测之后,你得到了实际的答案:股票实际上上涨了三个点。该系统通过更新输入数据——比如同一股票的过去价格,或许还有其他股票的过去价格和各种指标——与产出预测之间的映射来学习,以更好地匹配实际答案,这被人称为基本事实。
然而,对于强化学习,没有正确的答案可以借鉴。强化学习系统产生的是行动,而不是预测——它们会建议最有可能最大化(或最小化)某一指标的行动。你只能观察自己在某项任务上做得如何,以及它是否完成得比以前更快或者效率更高。因为这些系统是通过试错来学习的,所以当它们能够快速尝试某一行动(或一系列行动)并获得反馈时,它们才能产生最好的成效——一个每天执行数百个行动的股市算法是一个很好的用例;在五年的时间里优化客户的终身价值,其间仅有不定期的互动时刻,这就不是好的用例。值得注意的是,由于它们的学习方式之故,它们不需要堆积如山的历史数据——它们会一路实验并创建自己的数据。
因此,它们可以用来 自动化 一个流程,比如用机械臂将物品放入运输集装箱;或者 优化一个流程,比如决定何时、通过何种渠道联系一个未付款的客户,以最大程度要回收入、最低程度花费精力。不论是这两种情况中的哪一种,设计系统使用的输入、行动和奖励都是关键——它会精确地优化你对其进行编码以实现优化的内容,任何含混不清的东西它都处理不好。
谷歌利用强化学习来帮助数据中心降温一事是一个很好的例子,说明这种技术可以如何得到应用。数据中心中的服务器会产生大量热量,特别是当它们彼此距离接近时,而过热会导致 IT 性能问题或设备损坏。在这个用例中,输入数据是气压和温度等关于环境的各种指标。采取的行动是空气处理单元中的风扇转速(它可以控制空气流量)和阀门开度(用水量)。该系统包括一些遵守安全操作指南的规则。它还针对空气如何流经中心编制了顺序,以将温度保持在指定水平,同时最大限度地减少能源使用。数据中心环境的物理动态十分复杂且在不断变化;天气的变化就会影响温度和湿度,每个物理位置通常都有独特的结构和设置。强化学习算法能够注意到难以用公式和规则描述的细微差别。
在 Borealis AI,我们与加拿大皇家银行 (Royal Bank of Canada) 的资本市场业务部门合作,开发了一个名为 Aiden 的强化学习型交易执行系统。Aiden 的目标是在指定的时间窗口内执行客户的股票委托(购买或出售一定数量的股票),寻找相对于指定基准而言损失最小的价格。由于一次买入或卖出太多股票会对市场产生不利影响,因此这成为一项连续的决策任务:任务是在一天中按顺序行动,以尽量减少价格影响。
股市是动态的,当今天的市场状况与昨天不同时,传统算法(交易员使用多年的基于规则的算法)的表现可能会参差不齐。我们觉得这是一个很好的强化学习机会——它 在清晰性和动态复杂性之间取得了恰当的平衡。我们可以清楚地列举 Aiden 可以采取的不同行动,以及我们希望优化的回报(尽量减少 Aiden 实现的价格与市场成交量加权平均价格基准之间的差异)。股票市场波动迅速,会生成大量数据,这使得算法能够快速迭代学习。
我们让算法通过无数的模拟来实现这一点,然后将系统实时推入市场。最终,Aiden 被证明能够在新冠疫情初期市场波动较大的时期表现良好——这些情况对于预测性人工智能来说尤其困难。Aiden 能够适应不断变化的环境,同时继续保持与基准目标的近距离。
如何发现强化学习的机会
你如何判断自己是否忽视了强化学习可能解决的问题?以下就是入手之处:
列出清单。
创建包含一系列步骤的业务流程清单,并清楚地说明你希望最大化或最小化的内容。关注行动密集、频繁且有反馈机会的流程,避免罕有行动且难以观察到哪种行动最能有效收集反馈的流程。找对目标可能需要反复演算。
考虑其他选择。
如果你能用其他机器学习或优化技术来解决问题,那就不要从强化学习开始。当缺乏足够的历史数据来训练算法时,强化学习会很有帮助。您需要探索各种选择(并在此过程中创建数据)。
小心你的愿望。
如果你真的想继续前进,领域专家应该与技术团队紧密合作,帮助设计输入、行动和回报。对于输入,要寻找你可以用来做出正确决策的最小信息集。对于行动,要询问你希望给予系统多少灵活性;从简单行动开始,以后再扩大行动范围。对于回报,要仔细考虑结果——要小心避免陷入孤立地考虑一个变量或者以长期痛苦换取短期收益的陷阱。
问问这样做是否值得。
可能的收益是否可以证明发展成本的合理性?许多企业需要进行数字化转型投资,以建立系统和密集的、生成数据的业务流程,从而让强化学习系统真正发挥作用。为了回答投资是否会有回报的问题,技术团队应该评估计算资源,以确保你拥有支持试验所需的计算能力,并允许系统探索和确定最优排序。(他们可能希望在实时发布算法之前先创建一个模拟的环境来对其测试。)在软件方面,如果你计划使用一个针对客户参与的学习系统,那你就需要一个能够支持 A / B 测试的系统。这对学习过程至关重要,因为 算法需要探索不同的选择,然后才能确定哪一个选项最有效。最后,如果你的技术堆栈只能普遍发布特性,那么你可能需要在升级之后再开始优化。
做好耐心的准备。
最后但同样重要的是,与许多学习算法一样,在系统学习的早期,你必须对错误持开放态度。它不会从第一天起就找到最佳路径,但它会适时实现目标——而在它真的实现目标的时候,可能就会找到出乎人类想象的令人惊讶的创造性解决方案。
尽管强化学习是一项成熟的技术,但它现在才刚刚开始应用于商业背景。当该技术用于自动化或优化生成密集数据的业务流程时,以及在可能存在无法用公式或规则得出的意外变数时,它会有出色表现。如果你能发现一个机会,而且要么依靠一个内部技术团队,要么与该领域的专家合作,那你就有机会可以运用这项技术来超越你的竞争对手。
* 本文节选自《哈佛商业评论》中文版 2021 年 6 月刊文章《AI 的下一件大事》。
原文链接:https://www.bilibili.com/read/cv11956576