资源行业动态数据挖掘巨擘俞士纶:真实数据源不止一个,学习不仅要有深度还要有广度

数据挖掘巨擘俞士纶:真实数据源不止一个,学习不仅要有深度还要有广度

2019-10-21 | |  58 |   0

原标题: 数据挖掘巨擘俞士纶:真实数据源不止一个,学习不仅要有深度还要有广度     

来源:雷锋网  [ 本文作者:camel ]       链接:https://www.leiphone.com/news/201910/61rY46GoyOJJhjIv.html

雷锋网(公众号:雷锋网)AI科技评论报道,2019年10月17日-19日,CNCC 2019在苏州金鸡湖国际会议中心举办,雷锋网作为战略合作媒体,对大会进行全程报道。


5daaabfe6a618.jpg


在18日上午的特邀报告中,数据挖掘领域巨擘美国伊利诺大学芝加哥分校俞士纶教授做了“Broad Learning:A New Perspective on Mining Big Data”(广度学习:大数据挖掘的新视角)的分享。


当前大家普遍对深度学习了解较多,而事实上对于数据我们不仅要挖得深,还需要挖得广。例如对于网页数据,深度学习能够单独学习文本数据或图像数据等里面的特性。但是真实的网页可能同时包含文本、图片、音频、链接等等的数据。


5daaab8859926.png


事实上,我们讲的大数据并不是说所有数据都很大,只是整体很大而已。更多的情况是,我们拥有许多不同来源的(小)数据,它们之间相互有或多或少地联系。如果能够将这些不同的数据源整合在一起,那么我们将挖掘出更多有价值的信息。


俞士纶教授认为,首先我们应当认同这样一个观点,即所有类型的数据都是可用的,换句话说就是没有没价值的数据。问题的关键就在于我们如何将这些数据融合在一起。那么如何做呢?这就需要「广度学习」了。


所谓「广度学习」,俞士纶教授认为其本质就是如何将各种各样的数据整合在一起,以获取更多的信息。


在采访中,俞教授向AI科技评论强调说,广度学习在研究上的侧重点是数据,而深度学习的侧重点则在于模型;换句话说深度学习的「深」是指对数据训练的模型层数深;而广度学习的「广」是指我们训练模型的数据类型广。这两个概念侧重的点不同,但可以结合在同一个模型当中。


5daaab8cbd153.png


要做好「广度学习」,俞教授认为需要以下三步:


● 首先,定义并获取相关的有用数据源,也即找到对你的问题有用的数据。

● 其次,设计一种模型来将异质数据源信息融合起来。

● 最后,基于模型整体的需求从各种数据源中深度地去挖掘信息。


5daaab8d6d56f.png


而从具体的技术路线角度来看,俞士纶教授认为广度学习的类型大致可以分为三类:


● 首先是在同一个实体上有不同类型信息的学习。这种类型的广度学习包括 Multi-view Learning、Multi-source Learning、Multi-model Learning 等。

● 其次是在不同的但类型相似的实体上信息的学习。这包括 Transfer Learning。

● 另外是在有复杂网络类型关系的不同类型实体信息的学习。这包括基于融合的异质信息网络(HIN)。


对于广度学习,最为关键的任务主要有两个:信息融合和知识发现。因此对应的就有两个基本的挑战,其一是发现什么数据是有用的,如何将这些数据融合在一起;其二就是要明白想要挖掘什么(并不是所有数据对特定的知识发现都有用),以及如何从融合的数据中挖掘出有用的知识。


这有很多例子。


例如药物发掘。新药上市通常很贵,原因在于研发新药的成本非常高,发现一个新药之前可能失败成千上万次。但如果我们能够用大数据的技术来做预测,把那些不成功的案例删除掉,那么就能够在很大程度上降低新药研发的成本。但是,决定一种药物能否治疗一种疾病,并不仅仅是看药物的化学成分的;事实上,这需要很多种不同类型的信息或数据。例如基因信息、器官组织信息、药物传播临床试验信息等。传统的数据挖掘方法仅仅能够针对一种信息进行深度挖掘,但事实上若想要取得较好的效果,则需要将多种信息综合起来。下面这张图融合了多个不同数据之间的关系,这在本质上是一个异质网络。


5daaab8f2f58a.png


在这张图上,可以定义所谓的Meta-Path,来表示两个数据之间的关系:


5daaab90b578c.png


比如两个数据虽然不一样,但相互有影响,那么就可以直接连在一起;两个化学药品,如果它们有相同的副作用,那么就可以说它们有关系。这种关联可以帮我们来决定一个药物是否可能有用。


5daaab923ba46.png


再例如,在电影推荐中,传统的方法往往只是根据用户的打分信息进行推荐,但事实上用户是否喜欢一部电影往往还取决于更多的因素,例如用户的个人背景、用户的朋友圈以及其他因素(例如电影是某个导演拍摄或某个演员主演等)都会影响用户是否观影以及观影体验。 


5daaab92c0a50.png


类似于前面的例子,也可以采用相似的方法将不同的信息进行融合来提高推荐的准确性。


5daaab9360352.png


俞士汶教授认为,在大数据时代数据是最为宝贵的资源。对个人和企业来讲,对大数据的挖掘将是一次颠覆性的机会;大数据有四个「V」,所以对大数据的挖掘同时也是一种挑战。俞教授在报告中则主要是解决大数据的Variety,也即通过融合异质数据源来进行广度学习。真实生活中的数据一般都不是只有一个数据源,而是要融合多个数据源才行。因此有效的学习应当同时需要广度和深度。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:CCF系列奖获奖名单公布,胡事民、汪滔获CCF王选奖 | CNCC 2019

下一篇:滴滴张博宣布开放城市交通指数数据集,助力交通领域科研发展 | CNCC 2019

用户评价
全部评价

热门资源

  • 国内人才报告:机...

    近日,BOSS 直聘职业科学实验室 &BOSS 直聘研究院...

  • AI使物联网更智能...

    看到微软对物联网和人工智能的结合感兴趣是一个明...

  • 推荐一批学习自然...

    这里推荐一批学习自然语言处理相关的书籍,当然,...

  • 机器学习中的线性...

    机器学习中的线性回归是一种来源于经典统计学的有...

  • 安防智能化大势下...

    大部分传统安防设备不仅拍摄视野有限,而且无法事...