原标题:Google Brain的最先进文本摘要
来源:AI 研习社 链接:https://www.yanxishe.com/TextTranslation/2326
微软最近发表的文章指出,文本摘要是机器学习算法正在提高的一项任务。这是一个好消息,因为自动总结系统承诺减少企业员工消息阅读的时间,在一项调查中此时间估算约为每天2.6小时。
一个Google Brain和伦敦帝国理工学院的团队不甘示弱,他们创建了一个系统,使用提取语句间隙的方法进行抽象总结序列转换,即(Pegasus),并利用谷歌的转换架构和预训练目标结合的方式生成抽象文本。据说,它在涵盖新闻,科学,故事,说明,电子邮件,专利和立法法案等12项摘要任务中均取得了最新的成果,并且在低资源摘要方面的表现令人惊讶,在仅1000个数据的条件下,超过了之前的最高水平六个数据集。
由AnyClip提供的推荐视频展示了为什么搜索量排名前5的谷歌选手如此容易被搜索。现在播放。
正如研究人员所指出的那样,与执行技术相比,文本摘要旨在从输入文档中生成准确而简洁的摘要。 不仅仅是从输入中复制片段,抽象总结可能会产生新颖的单词或覆盖主要信息,从而使输出在语言上保持流利。
转换器是由Google AI研究部门Google Brain的研究人员在论文中引入的一种神经网络结构。 与所有深层神经网络一样,它们在相互连接的层中包含(神经元)从输入数据传输信号并缓慢调整每个连接的突触强度(权重)的功能,这就是所有AI模型如何提取特征并学习进行预测的方式。 但是转换器独特的地方在于每个输出元素都连接到每个输入元素,并且它们之间的权重是动态计算的。
团队设计了一项训练任务,掩盖了文档中整个且可能很重要的句子。人工智能必须通过利用网络和新闻文章,包括研究人员编译的新语料库(HugeNews)来填补空白。
在实验中,研究小组选择了性能最佳的Pegasus模型,具有5.68亿个参数或从历史数据中学习的变量的模型,通过对3.5亿个网页中提取的750GB文本(通用抓取)或包含15亿共3.8TB从新闻和类似新闻的网站收集的HugeNews文章进行训练。(研究人员说,在HugeNews的情况下,包含高质量新闻和低质量网站的白名单被用来植入网络爬虫工具。)
研究人员称,Pegasus在流利度和连贯性方面达到了很高的语言质量,无需采取策略减少不满。此外,在资源匮乏的环境中,只有100篇示例文章的条件下,它生成的摘要的质量与在20,000到200,000篇文章的完整数据集上训练过的模型相当。
一THE END一
免责声明:本文来自互联网新闻客户端自媒体,不代表本网的观点和立场。
合作及投稿邮箱:E-mail:editor@tusaishared.com