Google Brain的最先进文本摘要

资源分类

2020-01-10 |

73 |

原标题：Google Brain的最先进文本摘要

来源：AI 研习社链接：https://www.yanxishe.com/TextTranslation/2326

微软最近发表的文章指出，文本摘要是机器学习算法正在提高的一项任务。这是一个好消息，因为自动总结系统承诺减少企业员工消息阅读的时间，在一项调查中此时间估算约为每天2.6小时。

一个Google Brain和伦敦帝国理工学院的团队不甘示弱，他们创建了一个系统，使用提取语句间隙的方法进行抽象总结序列转换，即（Pegasus），并利用谷歌的转换架构和预训练目标结合的方式生成抽象文本。据说，它在涵盖新闻，科学，故事，说明，电子邮件，专利和立法法案等12项摘要任务中均取得了最新的成果，并且在低资源摘要方面的表现令人惊讶，在仅1000个数据的条件下，超过了之前的最高水平六个数据集。

由AnyClip提供的推荐视频展示了为什么搜索量排名前5的谷歌选手如此容易被搜索。现在播放。

正如研究人员所指出的那样，与执行技术相比，文本摘要旨在从输入文档中生成准确而简洁的摘要。不仅仅是从输入中复制片段，抽象总结可能会产生新颖的单词或覆盖主要信息，从而使输出在语言上保持流利。

转换器是由Google AI研究部门Google Brain的研究人员在论文中引入的一种神经网络结构。与所有深层神经网络一样，它们在相互连接的层中包含（神经元）从输入数据传输信号并缓慢调整每个连接的突触强度（权重）的功能，这就是所有AI模型如何提取特征并学习进行预测的方式。但是转换器独特的地方在于每个输出元素都连接到每个输入元素，并且它们之间的权重是动态计算的。

团队设计了一项训练任务，掩盖了文档中整个且可能很重要的句子。人工智能必须通过利用网络和新闻文章，包括研究人员编译的新语料库（HugeNews）来填补空白。

在实验中，研究小组选择了性能最佳的Pegasus模型，具有5.68亿个参数或从历史数据中学习的变量的模型，通过对3.5亿个网页中提取的750GB文本（通用抓取）或包含15亿共3.8TB从新闻和类似新闻的网站收集的HugeNews文章进行训练。（研究人员说，在HugeNews的情况下，包含高质量新闻和低质量网站的白名单被用来植入网络爬虫工具。）

研究人员称，Pegasus在流利度和连贯性方面达到了很高的语言质量，无需采取策略减少不满。此外，在资源匮乏的环境中，只有100篇示例文章的条件下，它生成的摘要的质量与在20,000到200,000篇文章的完整数据集上训练过的模型相当。

一THE END一

免责声明：本文来自互联网新闻客户端自媒体，不代表本网的观点和立场。

合作及投稿邮箱：E-mail:editor@tusaishared.com

上一篇：ALBERT：语言表示自监督学习的轻量 BERT

下一篇：如何用TF-IDF自动生成文本摘要

用户评价

全部评价

热门资源

应用笔画宽度变换...

应用背景：是盲人辅助系统，城市环境中的机器导航...
GAN之根据文本描述...

一些比较好玩的任务也就应运而生，比如图像修复、...
端到端语音识别时...

从上世纪 50 年代诞生到 2012 年引入 DNN 后识别效...
人体姿态估计的过...

人体姿态估计是计算机视觉中一个很基础的问题。从...
谷歌发布TyDi QA语...

为了鼓励对多语言问答技术的研究，谷歌发布了 TyDi...

智能在线

400-630-6780
聆听.建议反馈

E-mail: support@tusaishared.com