资源技术动态Google Brain的最先进文本摘要

Google Brain的最先进文本摘要

2020-01-10 | |  73 |   0

原标题:Google Brain的最先进文本摘要

来源:AI 研习社        链接:https://www.yanxishe.com/TextTranslation/2326


微软最近发表的文章指出,文本摘要是机器学习算法正在提高的一项任务。这是一个好消息,因为自动总结系统承诺减少企业员工消息阅读的时间,在一项调查中此时间估算约为每天2.6小时。

image.png


一个Google Brain和伦敦帝国理工学院的团队不甘示弱,他们创建了一个系统,使用提取语句间隙的方法进行抽象总结序列转换,即(Pegasus),并利用谷歌的转换架构和预训练目标结合的方式生成抽象文本。据说,它在涵盖新闻,科学,故事,说明,电子邮件,专利和立法法案等12项摘要任务中均取得了最新的成果,并且在低资源摘要方面的表现令人惊讶,在仅1000个数据的条件下,超过了之前的最高水平六个数据集。


由AnyClip提供的推荐视频展示了为什么搜索量排名前5的谷歌选手如此容易被搜索。现在播放。


正如研究人员所指出的那样,与执行技术相比,文本摘要旨在从输入文档中生成准确而简洁的摘要。 不仅仅是从输入中复制片段,抽象总结可能会产生新颖的单词或覆盖主要信息,从而使输出在语言上保持流利。


转换器是由Google AI研究部门Google Brain的研究人员在论文中引入的一种神经网络结构。 与所有深层神经网络一样,它们在相互连接的层中包含(神经元)从输入数据传输信号并缓慢调整每个连接的突触强度(权重)的功能,这就是所有AI模型如何提取特征并学习进行预测的方式。 但是转换器独特的地方在于每个输出元素都连接到每个输入元素,并且它们之间的权重是动态计算的。


团队设计了一项训练任务,掩盖了文档中整个且可能很重要的句子。人工智能必须通过利用网络和新闻文章,包括研究人员编译的新语料库(HugeNews)来填补空白。


在实验中,研究小组选择了性能最佳的Pegasus模型,具有5.68亿个参数或从历史数据中学习的变量的模型,通过对3.5亿个网页中提取的750GB文本(通用抓取)或包含15亿共3.8TB从新闻和类似新闻的网站收集的HugeNews文章进行训练。(研究人员说,在HugeNews的情况下,包含高质量新闻和低质量网站的白名单被用来植入网络爬虫工具。)


研究人员称,Pegasus在流利度和连贯性方面达到了很高的语言质量,无需采取策略减少不满。此外,在资源匮乏的环境中,只有100篇示例文章的条件下,它生成的摘要的质量与在20,000到200,000篇文章的完整数据集上训练过的模型相当。

THE END

免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。

合作及投稿邮箱:E-mail:editor@tusaishared.com

上一篇:ALBERT:语言表示自监督学习的轻量 BERT

下一篇:如何用TF-IDF自动生成文本摘要

用户评价
全部评价

热门资源

  • 应用笔画宽度变换...

    应用背景:是盲人辅助系统,城市环境中的机器导航...

  • GAN之根据文本描述...

    一些比较好玩的任务也就应运而生,比如图像修复、...

  • 端到端语音识别时...

    从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...

  • 人体姿态估计的过...

    人体姿态估计是计算机视觉中一个很基础的问题。从...

  • 谷歌发布TyDi QA语...

    为了鼓励对多语言问答技术的研究,谷歌发布了 TyDi...