栏目分类:
子分类:
返回
文库吧用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
文库吧 > IT > 前沿技术 > 人工智能 > NLP

智能金融的三驾马车之自然语言处理NLP

NLP 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

智能金融的三驾马车之自然语言处理NLP

什么是自然语言处理NLP

用通俗的话来讲,自然语言处理NLP的目标是让机器能够理解人类的语言,NLP就是人和机器进行交流的技术。用专业语言来讲,自然语言处理有狭义和广义之分。狭义的自然语言处理是使用计算机来完成以自然语言为载体的非结构化信息为对象的各类信息处理任务,比如文本的理解、分类、摘要、信息抽取、知识问答、生成等的技术。广义的自然语言处理技术也包含自然语言的非数字形态(如语音、文字、手语等)与数字形态之间的双向转换(识别与合成)环节。

NLP的历史发展

自然语言处理是人工智能的一个分支。伴随着人工智能发展的三次浪潮,自然语言处理迎来黄金发展期。

NLP发展的第一阶段是20世纪50~70年代,自然语言处理作为人工智能的一个分支,其源头和人工智能一样,都出自于计算机科学的祖师爷级人物——阿兰·图灵。图灵在提出图灵测试的时候,就把使用自然语言与人进行对话可以乱真的能力作为判别一个机器系统有无智能的标准。早期的自然语言处理“理性主义”学派盛行,是基于规则的范式主导的年代,基于人工规则的方式,使用规则引擎或者规则系统来做问答、翻译等功能。

NLP发展的第二个阶段是20世纪70年代后,此时NLP语料库不断丰富,以IBM沃森实验室为代表的前沿技术公司基于统计机器学习的方法,使NLP技术有了较大的革新。此时NLP的技术理论从理想主义向经验主义进行了过渡。上世纪九十年代开始,“经验主义”学派开始反超,基于统计的范式繁荣了近二十年。

NLP的发展的第三个阶段是2008年-2018年,随着深度学习的出现,并与自然语言处理的结合,NLP得到了飞速的发展,这是数据和算力积累到临界点的一次综合性的爆发。2018年Google的Bert模型被认为开启了NLP新时代,2019年2月的Gpt2模型,因为太强大担心被坏人破坏为由,只公开了部分模型。OpenAI 训练了一个大型无监督语言模型,能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA (state-of-the-art result,指的是在该项研究任务中,目前最好的模型的结果/性能/表现)表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

当金融遇到NLP

2018年,随着国内科研机构关于NLP的论文激增,NLP在国内迎来了发展的黄金时期。此时也正赶上科创板元年,NLP技术和中国版“纳斯达克”邂逅,人工智能、自然语言处理领域的创业变成了风口,也成为了未来几十年中国产业结构化调整,转型中高端的动能之一。

金融行业因其与数据的高度相关性,成为人工智能最先应用的行业之一,而自然语言处理(NLP)与知识图谱作为人工智能技术的重要研究方向与组成部分,正在快速进入金融领域,并日益成为智能金融的基石。

Gartner数据显示,在金融服务以及保险行业对人工智能的投入中,约有20%的预算投入到了自然语言处理(NLP)中,在人工智能各方向中位列第三。对NLP的投入通常在1年左右产生可观的商业价值,这也进一步增强了金融机构对NLP的热情。

金融AI的投入占比如图所示,其中图像识别第一,数据挖掘第二,语音识别第三,机器学习列第4,NLP列第6,知识图谱列第7。

智能金融NLP技术未来发展趋势 NLP和知识图谱KG结合

将NLP和KG结合意味着将知识和常识引入到目前基于数据的学习系统中。“NLP”和“知识图谱”是金融科技领域核心前沿技术,这两项关键技术在金融领域的应用场景高度重合,两者相互依托、互为补充。前者不断丰富后者的内容,后者则为前者提供背景知识的支持。同时,将知识推理融入到NLP和知识图谱的应用中来,形成“语义理解+知识支撑+动态推理”的最佳范式,可以提供自然语言分析结果的“可解释性”,这点对于金融行业来说至关重要。

经验主义、理性主义缺一不可

一般认为,NLP主要有两种研究思想和方法,第一种是理性主义方法,其主要思路是通过归纳语言学规则来分析和生成语言,优点是语言表达结构和组成成分可以借助规则直接清晰地表示出来,但规则过于“刚性”会导致无法处理例外情况、鲁棒性差、规则获取和更新代价高等问题。另一种研究方法是经验主义方法,主要是采用机器学习(特别是统计学习)从语料集中自动或半自动地获取语言学统计知识来构建模型,然后对新的文本进行推断。目前最热门的深度学习也属于经验主义方法,近年来取得了快速进展和广泛应用,在学术界和企业界备受瞩目。对于金融领域的NLP应用来说,经验主义和理性主义这两方面不应是“离异”状态,而应该积极的“联姻”,就如哲学家培根所主张的,既反对狭隘的理性主义,也反对纯粹的经验主义。具体说来,以逻辑推理为代表的符号主义与神经网络为代表联结主义的深度融合应是未来最具发展潜力的方向之一。

目前NLP技术在自然语言的深度理解方面,仍然存在大量的探索空间,例如如何准确处理篇章范围内的指代消歧;如何正确理解比拟、比喻和隐喻等。随着金融NLP经验主义与理性主义研究方法的融合提升,并且与知识图谱、智能推理等进一步结合,更多的难题将期望得到解决。

无监督学习

自然语言处理使用了大量的机器学习技术,监督学习是机器学习成功的关键。但是,它需要大量的、经过仔细清理的、甚至是昂贵的数据集才能发挥非常好的作用。而无监督学习则有可能解决这些不足,尤其对样本、语料并不充足的新金融领域,这是非常有吸引力的。由于无监督学习没有了显式人工标签的限制,在当前计算量和原始数据不断增加的趋势下,这项技术表现出了非常好的扩展性。最新的Bert、Gpt2模型也都是往无监督学习方向发展。通过无监督技术训练的词向量表示可以使用由 TB 级信息组成的大型数据集,并且当它与监督学习相结合时,可以提高各种 NLP 任务的性能。

解决边际效用问题——“边际人工智能”、“实时人工智能”

传统的机器学习是基于统计学的,意思就是必须有大量数据,才能识别出某些模式来,但是有些模式是很少见的,例如特殊类型的表格识别。所以需要我们的处理规则具有一定的弹性,当符合这个规则的数据量达到一定程度以后,它又能转换为一个识别的模型。

怎么样把这个数据通用化,实现小样本、迁移学习、实时智能反馈,这样真正实现“边际人工智能”、“实时人工智能”,解决边际效应的问题,是我们未来自然语言处理技术的一个方向。

NLP工程应用发展趋势的判断

金融科技公司要选择适当的技术作为自己的技术突破口,金融机构则要选择适当的金融科技产品作为自己的数字化变革的抓手。工程化趋势的判断是每个金融科技领域CIO、CTO必须具备的核心能力。那么如何做,怎么做呢?

通过论文数量和方向分析把握NLP工程化的发展趋势

NLP是金融科技的核心技术之一,依托NLP的智能金融项目要考虑具体的NLP技术的工程化问题。而在20多年的发展历程NLP已经产生众多的技术分支,如何做出正确的技术选择、管理项目预期,并投入恰当的预算是智能金融项目面临的艰巨问题。这里尤其要避免采用过度前沿的人工智能技术,NLP也不例外。但换个角度,我们通过研究NLP的最新论文分布,往往会把握住NLP技术的发展趋势,因为大量的研究才会带来大量的论文,而大量的研究也意味着大量的工程实践,这是当下国内前沿技术的“产学研”孵化模式所决定的。而大量工程实践也就意味着项目风险的大幅度降低。毕竟自己已经不是那个最前的前浪了。

下图是2019ACL 论文分布,从多到少依次是:1.信息提取和文本挖掘;2.机器学习;3.机器翻译;4.对话和交互系统;5.文档分析;6.QA。

如果是一家金融科技公司或者是想要使用金融科技赋能自己业务线的机构用户,那么对于NLP技术的选择而言,去除掉金融行业比较少用到的机器翻译,以及通用的机器学习,那么“信息提取”、“对话系统包括QA”,“文档分析”就是当下智能金融在NLP领域最值得切入的重点领域了。

通过金融科技公司的产品方向把握NLP工程化趋势

2017年算是金融科技的正式元年,随后的两三年时间,金融科技创业公司如雨后春笋,例如做金融数据搜索的香侬科技,做公告结构化的鼎复科技,pdf图表检测和复原的庖丁科技,阿博茨、文因互联、阡寻科技等等,至少五六十家相关的公司。通过对这些公司产品方向的研究基本可以得出NLP的工程化方向。通过大家普遍提供的交集产品和服务,可以得出成熟的AI产品方向,再通过特色产品的公司案例研究,可以得出特色AI的成熟度,进而协助我们的科学决策。

NLP技术栈全景

这里罗列了跟NLP相关的四大板块的技术栈,包括基础概念、常用方法、最佳模型,知识点全覆盖。

概率&统计

从中间的灰色方块,发散出5个方面:基础 (Basic) ,采样 (Sampling) 、信息理论 (Information Theory) 、模型 (Model) ,以及贝叶斯 (Bayesian) 。

机器学习

这个版块,一共有7个分支:线性回归 (Linear Regression) 、逻辑回归 (Logistic Regression) 、正则化 (Regularization) 、非概率 (Non-Probabilistic) 、聚类 (Clustering) 、降维 (Dimensionality Reduction) ,以及训练 (Training) 。

文本挖掘

文本挖掘,是用来从文本里获得高质量信息的方法。

图上有6个分支:基本流程 (Basic Procedure) 、图 (Graph) 、文档 (Document) 、词嵌入 (Word Embedding)、序列标注 (Sequential Labeling) ,以及NLP基本假设 (NLP Basic Hypothesis)。

汇集了NLP路上的各种必备工具。

自然语言处理

虽然只有4个分支,但内容丰盛。

一是基础 (Basic) ,详细梳理了NLP常用的几类网络:循环模型、卷积模型和递归模型。

二是语言模型 (Language Model) ,包含了编码器-解码器模型,以及词表征到上下文表征 (Word Representation to Contextual Representation) 这两部分。许多著名模型,比如BERT和XLNet,都是在这里得到了充分拆解。

三是分布式表征 (Distributed
Representation) ,许多常用的词嵌入方法都在这里,包括GloVe和Word2Vec。

四是任务 (Task) ,机器翻译、问答、阅读理解、情绪分析。

NLP的金融场景

自然语言处理技术的应用场景甚广,大致可分为分析型、生成型和交互型三类。舆情监控系统是典型的分析型系统;自动写作系统是典型的生成型系统;形形色色的聊天机器人是典型的交互型系统。金融证券行业对自然语言处理技术业有很迫切的落地需求,但往往必须结合专业领域知识和私有数据才能构建有价值的场景。下面示例下金融领域NLP的典型应用场

NLP交互型智能金融场景

智能问答

智能问答是自然语言处理(NLP)的关键技术,目的是让用户以自然语言形式提出问题,深入进行语义分析,以更好理解用户意图,快速准确获取知识库中的信息。在用户界面上,既可以表现为问答机器人的形式(智能问答),也可以为搜索引擎的形式(语义搜索)。智能问答系统一般包括问句理解、信息检索、答案生成三个环节。智能问答系统与金融知识图谱密切相关,知识图谱在语义层面提供知识的表示、存储和推理,智能问答则从语义层面提供知识检索的入口。基于知识图谱的智能问答相比基于文本的问答更能满足金融业务实际需求。

智能问答的价值在金融领域越来越被重视。它主要应用的场景包括智能投研、智能投顾和智能客服。在智能投研领域,投研人员日常工作需要通过多种渠道搜索大量相关信息。而有了金融问答的帮助,信息获取途径将是“Just ask a question”。并且,语义搜索返回的结果不仅是平面化的网页信息,而是能把各方面的相关信息组织起来的立体化信息,还能提供一定的分析预测结论。在智能客服和智能投顾领域,智能问答系统的应用主要是机器人客服。机器人客服目前的作用还只是辅助人工客服回答一些常见问题,但已能较大地节省客服部门的人力成本。

金融语义搜索

NLP在金融信息搜索中扮演至关重要的作用。来自金融行业企业级搜索跟互联网搜索有本质不同,面临的几个挑战,通过NLP才能应对。

1)数据源的挑战:金融文档解析,源于金融类企业中各种类型的数据存放在不同的系统中(例如OA系统、邮件系统、文件系统等),既有非结构化数据也有结构化数据。因此,结构化数据和非结构化数据统一搜索和管理是用好数据资产的重中之重。NLP在非结构化数据处理中不可或缺。

2)语料的挑战:基于小样本学习的意图识别。对于搜索来说,意图识别也即分析用户的核心搜索需求。随着金融机构用数的部门、岗位越来越多,搜索的意图各有不同,需要能够快速识别。然而,企业级智能搜索意图识别面临着语料方面的约束:语料是自然语言处理的重要基础,但企业所涉及的专业领域的训练语料,相对于互联网领域来说非常少;意图多、任务多,但冷启动训练样本比较少。NLP结合KG能够有效降低语料数量的依赖。

3)结果完整性需求的挑战:语义联想等

面对数量庞大的数据资产,用户需要比较全面、完整的搜索结果。和一般的互联网搜索不同,企业内部搜索是为业务决策和运转服务的,需要全面获取搜索结果并且不能有任何疏漏,对查准率(Precision,也即精度)和查全率(Recall Rate,又称召回率)有较高的要求。

NLP分析性智能金融场景

资讯与舆情分析

金融资讯信息非常丰富,例如公司新闻(公告、重要事件、财务状况等)、金融产品资料(股票、证券等)、宏观经济(通货膨胀、失业率等)、政策法规(宏观政策、税收政策等)、社交媒体评论等。金融资讯每天产生的数量非常庞大,要从浩如烟海的资讯库中准确找到相关文章,还要阅读分析每篇重要内容,是费时费力的工作。如果有一个工具帮助人工快速迅捷获取资讯信息,将大大提高工作效率。资讯舆情分析的主要功能包括资讯分类标签(按公司、产品、行业、概念板块等)、情感正负面分析(文章、公司或产品的情感)、自动文摘(文章的主要内容)、资讯个性化推荐、舆情监测预警(热点热度、云图、负面预警等)。在这个场景中,金融知识图谱提供的金融知识有助于更好理解资讯内容,更准确地进行资讯舆情分析。

资讯舆情分析的应用主要在智能投研和智能监管这两个场景。目前市场上的辅助投研工具中,资讯舆情分析是必不可少的重要部分。资讯舆情分析作为通用工具更多是对海量定性数据进行摘要、归纳、缩简,以更加快捷方便地为投研人员提供信息,支持他们进行决策,而非直接给出决策结论。在智能监管领域,通过资讯舆情分析,对金融舆情进行监控,发现违规非法活动进行预警。

金融预测和分析

基于语义的金融预测即利用金融文本中包含的信息预测各种金融市场波动,它是以NLP等人工智能技术与量化金融技术的结合。利用金融文本数据帮助改善金融交易预测模型的想法早已有之。本世纪初,美国就有人利用新闻和股价的历史数据来预测股价波动。2010年后,社交媒体产生了大量数据,基于Twitter、Facebook来预测股市的研究项目很多。最近,深度学习被大量应用在预测模型中。金融文本数据提供的信息是定性的(qualitative),而通常数字形式的数据是定量的(quantitative)。定性分析比定量分析更难,定性信息包含的信息量更大。有分析表明,投资决策人员在进行决策时,更多依赖于新闻、事件甚至流言等定性信息,而非定量数据。因此,可期待基于语义的金融预测分析大有潜力可挖。这个场景中涉及的关键NLP技术包括事件抽取和情感分析技术。金融知识图谱在金融预测分析中具有重要的作用,它是进行事件推理的基础。例如在中兴事件中,可根据产业链图谱推导受影响的公司。

基于语义的金融预测和分析在金融应用的主要场景包括智能投研和智能投顾。它的理想目标是能代替投资人员做投资预测,进行自动交易,但目前还只是作为投资人员的投资参考。将不同来源的多维度数据进行关联分析,特别是对非结构化数据的分析,比如邮件、社交网络信息、网络日志信息。从而挖掘和展现出未知的相关关系,为决策提供依据。

风险评估与反欺诈

风险评估是大数据、互联网时代的传统应用场景,应用时间较早,应用行业广泛。它是通过大数据、机器学习技术对用户行为数据分析后,进行用户画像,并进行信用和风险评估。

NLP技术在风控场景中的作用是理解分析相关文本内容,为待评估对象打标签,为风控模型增加更多的评估因子。引入知识图谱技术以后,可以通过人员关系图谱的分析,发现人员关系的不一致性或者短时间内变动较大,从而侦测欺诈行为。利用大数据风控技术,在事前能够预警,过滤掉带恶意欺诈目的人群;在事中进行监控,发生欺诈攻击时及时发现;在事后进行分析,挖掘到欺诈者的关联信息,降低以后的风险。

在金融行业,风险评估与反欺诈的应用场景首先是智能风控。利用NLP和知识图谱技术改善风险模型以减少模型风险,提高欺诈监测能力。其次,还可以应用在智能监管领域,以加强监管者和各部门的信息交流,跟踪合规需求变化。通过对通信、邮件、会议记录、电话的文本进行分析,发现不一致和欺诈文本。例如欺诈文本有些固定模式:如用负面情感词,减少第一人称使用等。通过有效的数据聚合分析可大大减少风险报告和审计过程的资源成本。

NLP生成型智能金融场景

自动文档生成

自动文档生成指根据一定的数据来源自动产生各类金融文档。常见的需要生成的金融文档如信息披露公告(债券评级、股转书等)、各种研究报告。

自动报告生成属于生成型NLP应用。它的数据来源可能是结构化数据,也可能是从非结构化数据用信息抽取技术取得的,也可能是在金融预测分析场景中获得的结论。简单的报告生成方法是根据预定义的模板,把关键数据填充进去得到报告。进一步的自动报告生成需要比较深入的NLG技术,它可以把数据和分析结论转换成流畅的自然语言文本。

自动文档生成的应用场景包括智能投研、智能投顾、智能投行等。它的典型应用案例如美国的Narrative
Science,它从结构化数据中进行数据挖掘,并把结果用简短的文字或依据模板产生报告内容。又如Automated
Insights,它为美联社自动写出了10亿多篇文章与报告。

速读研报、公告

目前投研领域报告、财报、公告随着上市公司的逐步增加相关内容也越来越多,对于行业研究人员来说,如何快速阅读相关报告,是其每天工作重要负担。此次NLP可以协助完成针对某类报告的,自动摘要、情感分析、重点逻辑解构等工作。这依赖于NLP对研报进行分词、词性标注、命名实体识别等工作,进而在进行语句级篇章级的阅读理解,再根据自己业务经验和数据本身的特点设计一些人工规则来提取研报里的关键信息。形成摘要、情感分析以及重点逻辑的呈现。这一过程不仅需要NLP的技术,更加需要一个庞大的金融词库的支持。

转载请注明:文章转载自 www.wk8.com.cn
本文地址:https://www.wk8.com.cn/it/834455.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 wk8.com.cn

ICP备案号:晋ICP备2021003244-6号