伯克利大师讲堂2018夏季学生报告精选 | 深度强化学习在商业中的应用——Wealthcome

首页    往期回顾    伯克利大师讲堂2018夏季学生报告精选 | 深度强化学习在商业中的应用——Wealthcome

 

2018伯克利大师讲堂结业汇报可选前沿技术总结介绍或技术的商业化应用设计,学生将被要求进行15分钟的汇报演讲(英文)并完成相应的书面汇报。

朱丽娟、王婕琳、王锦辉、张健斌、王逸五名同学以人工智能深度强化学习为技术基础,设计了相应的智能投顾商业化产品,该篇为其小组最终书面报告。

 

深度强化学习在商业中的应用

——Wealthcome

 

640-32

 

一、概述

深度增强学习Deep Reinforcement Learning(DRL)是将深度学习与增强学习结合起来从而实现从Perception感知到Action动作的端对端学习的一种全新的算法。简单的说,就是和人类一样,输入感知信息比如视觉,然后通过深度神经网络,直接输出动作,中间没有hand-crafted工作。深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。虽然将深度学习和增强学习结合的想法在几年前就有人尝试,但真正成功的开端是DeepMind在NIPS 2013上发表的Playing Atari with Deep Reinforcement Learning一文,之后DeepMind在Nature上发表了改进版的DQN文章,引起了广泛的关注。而Hinton,Bengio及Lecun三位学者在Nature上发表的Deep Learning 综述一文最后也将Deep Reinforcement Learning作为未来Deep Learning的发展方向。Deep Reinforcement Learning因为具备真正实现AI的潜力,受到了Google等企业的关注。DeepMind团队被Google以4亿美元的价格收购。而在15年12月,由Elon Musk牵头成立的OpenAI,在成立之初就获得了10亿美元的投资。OpenAI中的数名成员均来自UC Berkerley Pieter Abbeel人工智能研究团队。该团队紧随DeepMind,采用另一种方法直接实现了机器人的End-to-End学习,其成果也引起了大量的媒体报道和广泛关注。今年的NIPS 2015 更是由Pieter Abbeel及来自DeepMind的David Silver联合组织成立了Deep Reinforcement Learning workshop。可以说,目前在Deep Reinforcement Learning取得了开拓性进展的主要集中在DeepMind和UC Berkerley团队。

 

DRL是一种端对端(end-to-end)的感知与控制系统,具有很强的通用性。其学习过程可以描述为:

(1) 在每个时刻,Agent与环境交互得到一个高维度的观察,并利用DL方法来感知观察,以得到具体的状态特征表示;

(2) 基于预期回报来评价各动作的价值函数,并通过某种策略将当前状态映射为相应的动作;

(3) 环境对此动作做出反应,并得到下一个观察结果。通过不断循环以上过程,最终可以得到实现目标的最优策略。

 

DRL原理框架如图所示:

640-33

在人工智能领域,一般用Agent来表示一个具备行为能力的物体,比如机器人,无人车,人等等。增强学习考虑的问题就是Agent和环境(Environment)之间交互的任务。比如一个机械臂要拿起一个手机,那么机械臂周围的物体包括手机在内都是环境,机械臂通过外部的比如摄像头来感知环境,然后机械臂需要输出动作来实现拿起手机这个任务。另一个例子是游戏。当我们玩极品飞车游戏时,我们看到屏幕,这就是环境;然后我们输出动作(键盘操作)来控制车的运动。不管是什么任务,都包含了一系列的动作(Action),观察(Observation)及反馈值(Reward)。所谓反馈值,是当Agent执行动作与环境进行交互后,环境发生相应的变化,“反馈值”用于衡量该种变化的好坏。如上面的例子,如果机械臂离手机的距离近了,那么反馈值是正值,而在赛车游戏里,如果赛车越来越偏离跑道,该种情况下反馈值就是负值。接下来这里用了“观察”一词而非“环境”是因为Agent不一定能得到与环境相关的所有信息,比如如机械臂上的摄像头就只能得到某个特定角度的画面。因此,只能用“观察”来表示Agent获取的感知信息。

640-34

上图(来自David Silver)很清楚地表述了整个交互过程,这就是人与环境交互的一种模型化表示。在每个时间点(Time-Step Agent)都会从可以选择的动作集合A中选择一个执行.这个动作集合可以是连续的,如机器人的控制,也可以是离散的,比如游戏中的几个按键。动作集合的数量将直接影响整个任务的求解难度。数量越高,意味着难度越大。因此DeepMind才从玩最简单的游戏做起。

当机器知道了整个过程,任务的目标就明晰了——要获取尽可能多的反馈值。一旦脱离具体的目标,“控制”也就无从谈起。获取反馈值是一个量化标准:反馈值越高,表示任务执行得越好。每个时间节点Agent都会根据当前的观察来确定下一步动作。每次的观察作为Agent的所处的状态(State)。状态和动作存在映射关系,每个状态可对应一个动作,或对应不同动作的概率(常用概率来表示,概率最高的就是最值得执行的动作)。状态到动作的这个过程被称之为策略(Policy)。

增强学习的任务就是找到一个最优的策略从而使反馈值最大化。

 

二、Wealthcome

AlphaGO的成功,向我们提供了一种可能——在人工智能的帮助下更好地提高决策质量。

“Wealthcome”就是这样一款基于人工智能技术的投资理财的辅助产品。“Wealthecome”意思是“来吧,我的财富”,旨在指导人们在投资理财中使用更优异更有效的决策实现更快和更稳定的财富增长。

如今理财的形式多种多样,股票、基金、债券、保险、黄金等。对于缺乏专业知识的普通人而言,理财纷繁复杂的技巧让他们眼花缭乱,隐藏在投资理财里的陷阱也让人防不胜防。人们大量的财富极易在这种情况下大幅缩水甚至蒸发殆尽,投资理财对大多数普通人而言不仅无法代表财富的增值,反而对应着财产损失的痛苦经历。

投资理财中最难的是如何掌握市场走向,股票是上涨还是下跌,金价是上涨还是下跌,即使是身经百战的投资者也极易判断失误。市场走向受各种因素影响,可能是供求关系、政策导向、投机心理等,甚至谣言也常在投资意愿中起到主导关系。如此海量的信息量是人不能完全掌握的,即便获得了绝大多数信息,分析各变量的权重、多变量的复合影响,也需要极强的专业技能。但拥有深度强化学习(DRL)的AI就不一样了,AI可以实时收集各种信息,不会像人一样疲倦,不带有主观情绪,会做出理性的判断,并会根据结果不断迭代其策略,使其更优。

640-35

Wealthcome的设计基于深度强化学习(DRL),对过往和实时数据进行收集和学习,学会如何正确判断市场走向。初步设想,Wealthcome将有预测股价和提供资产组合建配置建议的功能。

我们都知道股票是很难预测的,今天涨明天可能就跌,看似无法知晓它的走向,当然我们也不可能每次都准备判断接下来日子的涨跌,但是根据一定的经验和分析手段,能掌握其大致的规律,判断在一个较长时间内它的总体走向。Wealthcome提供服务之一是,当其根据实时数据及人工智能算法,判断某只股票将会上涨,它就会发送通知告知客户,为客户提供股票走势预测数据。当Wealthcome判断客户所持某只股票将会下跌,它也会发送通知,建议客户抛售。一旦客户在预测股票趋势方面有较高的准确度,客户可以合理地调整其仓位和所持数量。Wealthcome仅会给出建议和提醒,但是不会主动帮助客户增持或减仓股票,实际操作权始终在客户手里。

不仅如此,Wealthcome还能进行资产配置建议。资产组合是资产持有者对其持有的各种股票、债券、现金以及不动产进行的适当搭配。资产组合的目的是通过对持有资产的合理搭配,使之既能保证一定水平的盈利,又可以把投资风险降到最低限度。在证券投资中,人们总是期望收益越高越好,但是由于每种证券都有风险,因此若只考虑追求收益,资产过分集中和单一,一旦出现什么不测,遭受损失的程度就会很大。通过科学的分析和评估,将证券投资进行合理的搭配组合,就可以实现在收益最大的同时风险最小。

简单地来说,就是不要把所有鸡蛋装在一个篮子里。Wealthcome作出分析,给予投资者投资建议。投资者就可以将自己的资金投入不同的领域,确定相应份额,比如在股票里投入百分之三十,在债券里投入百分之三十,再在基金里投入百分之三十,最后在保险里投入百分之十,这样子就可以分散风险从而赚到钱。

 

三、深度强化学习在Wealthcome中的应用

深度强化学习作为Wealthcome的核心技术,将以大量的关于比如股票、基金债券等的过往数据作为分析基础,理论上,我们将选取六年以上的金融市场里的所有相关数据。 深度强化学习系统将利用这些数据进行学习研究并进行市场模拟,系统通过不断的学习研究和模拟,对比实际结果并进行参数的调整,最后形成一个数据预测模型。这个模型可以根据市场实时数据自发进行预测、考量,最终为投资者提供多种方案——譬如选择继续买入大概率上涨的股票,卖出要跌的股票。投资者可以根据自己的风险承担能力选择一个或多个方案。而投资者每一次做的决定和每一次的盈亏率都将作为全新的数据被导入深度强化学习系统进行迭代,持续修正模型并提高其准确率。通过持续进化、不断完善自己的运算模型,拥有良性循环的系统将最大限度地提高用户的利益。

 

那Wealthcome系统的核心运算模型是如何形成的呢?

640-36

如上图所示,深度强化学习系统接收环境状态的输入s,也就是剩余的订单量和剩余时间,系统输出相应的最佳动作a,也就是最佳的限价单价格。随着限价单的执行,剩余的订单量会减少,而且剩余时间也会减少,环境就变迁到了新的状态s‘。系统接收新的环境状态输入s’,同时将上一个限价单的执行成本,成交成本(成交部分)作为系统的瞬时奖惩反馈r也反馈给深度强化学习系统。对于深度强化学习系统来说,目标就是学习一个多阶段的行为策略π:S→A。系统能够根据剩余订单量以及剩余时间,确定当前的最佳的限价单价格,从而使全部订单成交成本最低。当深度强化学习系统成功学会了那个多阶段的行为策略π,也就是S→Model→A,这时也就是系统的运算模型已经形成了。

 

640-37

这里以一个例子来说明:现在我们把买入股票问题细化为要在5分钟内买入5手某股票。每隔一分钟,我们可以查看一次现在的状态,修改限价单的价格,环境状态确定为剩余时间以及未成交股票手数。动作为当前状态下限价单价格。强化学习的目标是在规定的时间内买到所有的股票,并且付出的成本最小。而要想知道5分钟,5手时的最优动作,我们需要知道4分钟,0-5手情况下的最优动作以及最小损失。我们先确定0分钟,0-5手的损失函数,由于0分钟表示时间已经用完,损失函数可以直接按照固定价格执行,表示对于超时的惩罚,比如可以使用当日涨停价成交,或者按照当日的最高价成交等,或者直接设置为无穷大。之后通过0分钟时的信息,更新1分钟时的信息,直到5分钟时的信息,从而得到目前的最优策略。系统就是利用各项数据经过迭代推算,形成最终的运算模型。

 

四、市场及目标客户

有人也许会很好奇,我们既然已经有了比较完善的理财机制,有了比较专业的理财顾问。为什么还需要人工智能投资顾问。

近年来,在美国等海外市场,智能投资顾问获得了快速发展,已经初具规模。依据Corporate Insight 的统计,截至2015年年中,智能投资顾问公司管理的资产规模已超过210亿美元。世界知名咨询公司A.T. Kearney预测,美国智能投顾行业的资产管理规模将从2016年的3000亿美元增长至2020年的2.2万亿美元,年均复合增长率将达到68%。并且,全球涌现出不少知名的智能投顾平台,如Wealthfront、Betterment、Personal Capital、Schwab IntelligentPortfolio 等,其中绝大部分是美国的平台。我们设计到的智能投资顾问平台是一种长期的被动投资,特别适合退休养老。目前,我国60岁以上老人突破2亿人,到2025年,这个数字预计达到3亿。中国的老龄化现象越来越严重,养老计划却饱受群众诟病。“421”的家庭模式使家庭养老变得越来越困难。“双轨制”缴纳养老保险又广受诟病,“以房养老”受到住房产权等70年的限制等等。从最初的家庭养老到社会养老再到住房养老,养老已经成为中国一大难题,并且这个难题随着老龄化现象的严重和养老金的亏空而日益明显。很多年轻人选择基金定投、商业养老保险等方式提前规划养老金。如果能够引进类似于Wealthfront的管理养老账户的方式,在较早时期将一部分资金投入到多样化的ETF(交易型开放式指数基金)中,数十年甚至几十年后,指数级增长的投资将获得极为可观的收益。而且,智能投顾的门槛低,低廉的费用完全在工薪阶层的接受范围之内,这在一定程度上解决养老难的问题。
我们利用互联网金融低成本优势,满足中等收入群体的理财需求以及养老需求,对于像Wealthfront在线理财工具进入中国是一个机遇。

根据Corporate Insight公司和A.T. Kearney公司的调查数据,以及结合中国现阶段的国情,可以看出智能投顾有很大的市场空间。

Wealthcome的主要目标客户群体如下:

群体一:有理财需求的低文化程度阶层,他们手中有一定积蓄,但是缺乏理财的专业知识,Wealthcome向他们提供更专业的投资建议,却只需支付极其廉价的费用。

群体二:有基金定投、商业养老保险诉求的工薪阶层,他们有固定收入但是每天忙于工作,没有足够时间学习市场分析技能,缺乏可以判断准确预测市场走向的专业知识。

Wealthcome利用深度强化学习来预测出股市等投资产品的走向,并对当前状态的最佳决策给出建议。而用户能直接根据建议的资产投资组合更新自己的投资方案,非常得高效和方便。

同时,基于用户理财投资习惯不同,在用户正式使用我们的产品之前,我们会根据一定方式了解用户风险偏好、投资习惯,如其投资原因、对理财顾问偏好、税前收入情况等来判断他们对风险的容忍度,再为其定制相应的投资理财计划。

640-38

 

五、Wealthcome的盈利模式和产品优势

1、盈利模式

我们产品的特点是成本低,主要客户为中等收入年轻人,区别于传统理财主要针对高净值人群,平台的盈利来源为其向客户收取的咨询费。平台的收费既低于传统理财机构的费用,也低于类似知名的智能投顾平台的费用。通常,美国传统的投资理财机构收取的费用项目较多,整体费率较高,如交易费(trade fees)、充值提现费(transaction fees)、投资组合调整费用(rebalancing fees)、隐藏的费用(hidden fees)、零散的费用(“nickel and dime”fees)、咨询费(advisory fees),平均约为1%,也有达到甚至超过3%的情况。其实,这是可以理解的,美国的人力成本、房屋租金高,传统投资理财机构有大量的理财顾问,甚至开设了不少线下营业网点,这都是巨大的成本开支,唯有通过向用户收取较高的费率才可能收回成本甚至盈利。而智能投顾平台依靠互联网技术的优势,不需要那么多的雇员,只需要较少的办公场所即可,因而能够极大地节省传统投资理财机构所承担的上述成本,即使采用低费率的策略吸引投资者,只要成交规模足够大,完全能够实现较多的利润。

2、产品优势

(1)成本低,充分发挥互联网技术的作用,大大降低投资理财的服务费用。我们的产品能从多种资产中为用户推荐个性化的投资理财服务,多样化的资产配置,而且费用很低,背后的核心是平台雄厚的技术实力和模型方法。无论是互联网技术,还是金融市场的理论、技术,美国引领着世界的潮流,Wealthcome将这种优势充分结合,因而能快速发展。

(2)容易操作,提高投资顾问服务的效率。与传统的投资顾问相比,这个产品能根据我们投资者的风险偏好推荐金融产品,调整投资组合。

(3)避免投资人情绪化的影响,机器人严格执行事先设定好的策略。

(4)分散投资风险,越来越多的用户熟练使用互联网,接受智能投顾服务。

(5)信息相对透明,平台披露了大量的信息。通过这个平台,投资者能接触到几乎所有准确的市场信息。

 

2018年9月25日 10:00