知识图谱的应用(5/6)

来源：网络整理时间:2015-12-10 关键词:索引,搜索引擎优化,数据挖掘

本篇文章主要介绍了"知识图谱的应用"，主要涉及到索引,搜索引擎优化,数据挖掘方面的内容，对于产品设计感兴趣的同学可以参考一下：作者：普惠金融信息服务(上海)有限公司大数据中心首席科学家李文哲　　知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Goo...

　　首先，数据中存在着很多的噪声。即便是已经存在库里的数据，我们也不能保证它有100%的准确性。在这里主要从两个方面说起。第一，目前积累的数据本身有错误，所以这部分错误数据需要纠正。最简单的纠正办法就是做离线的不一致性验证，这点在前面提过。第二，数据的冗余。比如借款人张三填写公司名字为”普惠“，借款人李四填写的名字为”普惠金融“，借款人王五则填写成”普惠金融信息服务有限公司“。虽然这三个人都隶属于一家公司，但由于他们填写的名字不同，计算机则会认为他们三个是来自不同的公司。那接下来的问题是，怎么从海量的数据中找出这些存在歧义的名字并将它们合并成一个名字? 这就涉及到自然语言处理中的”消歧分析”技术。

　　非结构化数据处理能力

　　在大数据时代，很多数据都是未经处理过的非结构化数据，比如文本、图片、音频、视频等。特别在互联网金融行业里，我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务，这对掌握的机器学习，数据挖掘，自然语言处理能力提出了更高的门槛。

　　知识推理

　　推理能力是人类智能的重要特征，使得我们可以从已有的知识中发现隐含的知识，一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”，可以推理出“朋友”关系，“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友，那我们可以推测张三和李四也很有可能是朋友关系。当然，这里会涉及到概率的问题。当信息量特别多的时候，怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要，基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。

　　大数据、小样本、构建有效的生态闭环是关键

　　虽然现在能获取的数据量非常庞大，我们仍然面临着小样本问题，也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统，我们首先需要一些欺诈样本。但实际上，我们能拿到的欺诈样本数量不多，即便有几百万个贷款申请，最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移，我们必然会收集到更多的样本，但样本的增长空间还是有局限的。这有区别于传统的机器学习系统，比如图像识别，不难拿到好几十万甚至几百万的样本。

　　在这种小样本条件下，构建有效的生态闭环尤其的重要。所谓的生态闭环，指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型，并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统，我们不仅要完善已有的数据流系统，而且要深入到各个业务线，并对相应的流程进行优化。这也是整个反欺诈环节必要的过程，我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。

　　6结语

　　知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用，知识图谱还可以应用在权限管理，人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。

　　参考文献

　　【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., … & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. InCOLD.

上一篇：消息称谷歌秘密计划增加云计算服务 下一篇：Yelp是如何用数据驱动搜索过滤器的？

知识图谱的应用(5/6)

相关图片

相关文章