-
2019年3月,百度正式发布NLP模型ERNIE,其在中文任务中全面超越BERT一度引发业界广泛关注和探讨。
今天,经过短短几个月时间,百度ERNIE再升级。发布持续学习的语义理解框架ERNIE2.0,及基于此框架的ERNIE2.0预训练模型。继1.0后,ERNIE英文任务方面取得全新突破,在共计16个中英文任务上超越了BERT和XLNet,取得了SOTA效果。
目前,百度ERNIE2.0的Fine-tuning代码和英文预训练模型已开源。(Github项目地址:https://github.com/PaddlePaddle/ERNIE)
近两年,以BERT、XLNet为代表的无监督预训练技术在语言推断、语义相似度、命名实体识别、情感分析等多个自然语言处理任务上取得了技术突破。基于大规模数据的无监督预训练技术在自然语言处理领域变得至关重要。
百度发现,之前的工作主要通过词或句子的共现信号,构建语言模型任务进行模型预训练。例如,BERT通过掩码语言模型和下一句预测任务进行预训练。XLNet构建了全排列的语言模型,并通过自回归的方式进行预训练。
然而,除了语言共现信息之外,语料中还包含词法、语法、语义等更多有价值的信息。例如,人名、地名、机构名等词语概念知识,句子间顺序和距离关系等结构知识,文本语义相似度和语言逻辑关系等语义知识。设想如果能持续地学习各类任务,模型的效果能否进一步提升?
▲ERNIE2.0:可持续学习语义理解框架
基于此,百度提出可持续学习语义理解框架ERNIE2.0。该框架支持增量引入词汇(lexical)、语法(syntactic)、语义(semantic)等3个层次的自定义预训练任务,能够全面捕捉训练语料中的词法、语法、语义等潜在信息。
这些任务通过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘之前学到过的信息。这也意味着,该框架可以通过持续构建训练包含词法、句法、语义等预训练任务,持续提升模型效果。
▲新发布的ERNIE2.0模型结构
依托该框架,百度充分借助飞桨PaddlePaddle多机分布式训练优势,利用79亿tokens训练数据(约1/4的XLNet数据)和64张V100(约1/8的XLNet硬件算力)训练的ERNIE2.0预训练模型不仅实现了SOTA效果,而且为开发人员定制自己的NLP模型提供了方案。目前,百度开源了ERNIE2.0的Fine-tuning代码和英文预训练模型。
百度研究团队分别比较了中英文环境上的模型效果。英文上,ERNIE2.0在自然语言理解数据集GLUE的7个任务上击败了BERT和XLNet。中文上,在包括阅读理解、情感分析、问答等不同类型的9个数据集上超越了BERT并刷新了SOTA。
ERNIE的工作表明,在预训练过程中,通过构建各层面的无监督预训练任务,模型效果也会显著提升。未来,研究者们可沿着该思路构建更多的任务提升效果。
自2018年预训练语言模型BERT提出之后,预训练语言模型将自然语言处理的大部分任务水平提高了一个等级,这个领域的研究也掀起了热潮。如今可持续学习的特点亦将成为NLP领域发展里程中的关键。
来源:百度AI
来源:松松科技 QQ/微信:lusongsong7
百度ERNIE2.0强势发布
| 阅读量 | 分类: 移动互联网 | 作者: 章鱼
相关文章阅读更多:互联网 百度
- 2015-02-28 百度站长平台评测
- 2015-04-23 百度和搜狗怎么又打起来了呢?
- 2015-10-02 百度宣布调整董事会构成
- 2015-10-08 为什么微软最终放弃了自己的Bing而选择百度?
- 2015-10-10 豌豆荚报复性回击百度屏蔽:拒绝提供下载
- 2015-10-22 马云、马化腾、李彦宏三大阵营 目前来看谁强谁弱呢?
- 2015-11-03 百度又爆SDK安全漏洞 黑客随意连接手机取信息
- 2015-11-22 百度贴吧前负责人:做产品16年,我有9条心得
- 2015-12-27 从百度年度搜索热词一窥中国网民心态
- 2016-01-13 百度为什么要“卖”贴吧
- 2016-01-13 这两年,百度发生了什么
- 2016-01-13 全网反百度,这样的公关该怎么做啊!无力!
- 2016-01-15 听内部人士揭秘百度贴吧的变现不归路
- 2016-01-15 都说百度作恶,到底恶在哪?
- 2020-06-28本站开通了在线投稿,点此立刻给我投稿哦!
发表感想加入微信群
点此登录松松云平台免费认证