#长文创作激励计划#

神经网络-GPT2

通过在名为WebText的数百万个网页的新数据集上进行训练,语言模型可以在没有明确监督的情况下学习执行各种自然语言处理任务。在给定文档和问题的条件下,该模型在CoQA数据集上的答案F1得分达到了55,这一成绩与3/4的基准系统相当或更好,而且无需使用超过127,000个训练示例。语言模型的容量对于零样本任务迁移的成功至关重要,而且随着容量的增加,其跨任务性能呈对数线性增长。我们的最大模型GPT-2是一个拥有15亿参数的Transformer,在零样本设置下,它在8个测试的语言建模数据集中的7个上实现了最先进的性能,但仍然未能充分拟合WebText。

  1. Introduction

现有的机器学习系统在训练任务上表现出色,得益于大数据集、高容量模型和监督学习的结合。然而,这些系统对数据分布和任务规范的微小变化非常敏感,导致它们更像是狭隘的专家,而非全能的通才。

为了解决这一问题,文中提出了未来的发展目标,即朝着更通用的系统发展,这些系统能够执行许多任务,而无需为每个任务手动创建和标记训练数据集。这意味着系统应该能够自动从数据中学习,而不是依赖大量手动标注的数据。这一发展目标将使机器学习系统更加通用和强大,可以适应更广泛的应用场景。

当前机器学习系统主要通过以下步骤进行创建:

  1. 数据收集:收集训练数据集,其中包含期望任务的正确行为示例。
  2. 系统训练:使用这些训练数据集训练系统,以模仿期望的行为。
  3. 性能评估:在独立且相同分布的保留数据集上评估系统的性能。

这种方法在创建针对特定任务的“专家”系统方面取得了显著进展。然而,面对多样的输入数据时,许多系统,如标题生成模型、阅读理解系统和图像分类器,表现出了不稳定的行为,这暴露了这种方法存在的一些缺陷。

具体而言,该方法在以下方面存在不足:

  1. 泛化能力:系统可能难以泛化到训练数据集之外的未知输入。
  2. 数据分布敏感:系统对训练数据分布的微小变化非常敏感。
  3. 任务定义敏感性:系统对任务定义的微小变化也敏感。
  4. 数据收集成本:为每个新任务手动创建和标注训练数据集的成本较高。
  5. 测试集重叠:许多标准测试集与训练数据集存在一定的重叠,导致对系统泛化能力的误报。

这些问题限制了当前机器学习系统的通用性和鲁棒性。因此,需要探索新的方法,如多任务学习和元学习,以改进现有方法的不足。

作者怀疑,在单个领域数据集上进行的单任务训练是当前系统泛化能力不足的主要原因。使用当前架构朝着健壮系统的进步可能需要在广泛领域和任务上进行训练和性能测量。最近,提出了几个基准,如GLUE (Wang et al., 2018)和decaNLP (McCann et al., 2018),以开始研究这一问题。

多任务学习是一种有效的机器学习框架,旨在通过同时训练多个相关任务来提高模型在通用环境下的表现。尽管多任务学习在提高通用性能方面具有潜力,但在NLP领域的应用仍处于初级阶段。当前,多任务学习在NLP领域的性能改进相对有限,仅有少数研究进行了大规模的多任务训练。

根据元学习的视角,每个数据集和任务组合都相当于一个训练样本。为了实现良好的泛化,机器学习系统通常需要数百到数千个样本。然而,在当前的技术条件下,要继续扩大数据集规模和任务设计以实现这一目标,将面临极大的困难。

鉴于上述挑战,研究者开始探索其他多任务学习设置,以实现更好的性能。这可能包括改进数据集创建、任务设计、模型架构等方面的方法。

什么是元学习?

元学习(Meta-learning),又称为学习学习,是一种让机器学习模型学会如何学习的框架。它旨在通过在多个任务上训练,使模型学会如何快速适应新的任务。以下是元学习(Meta-learning)的全面专业解释:

动机:元学习的动机是让模型具有泛化能力,能够在未见过的任务上表现良好。传统的机器学习需要大量标注数据来训练模型,但在许多实际场景中,获取大量标注数据是不现实的。元学习通过让模型在多个相关任务上学习,使模型能够适应新任务,减少对新数据的依赖。

核心思想:元学习的核心思想是使用多个相关任务作为训练样本,让模型学习不同任务的通用表示和适应机制。这样,模型就可以利用在先前任务上学到的知识,快速适应新任务。

训练过程:在元学习的训练过程中,模型需要适应一系列任务。每次适应一个任务时,模型只使用少量数据,就像人类学习新技能时只需要少量指导一样。通过多次适应不同任务,模型学会了如何快速适应新任务。

快速适应:元学习的目标是让模型学会如何利用少量数据快速适应新任务。在测试阶段,模型可以仅使用少量新任务数据,快速适应新任务,无需从头开始训练。

应用场景:元学习特别适用于那些任务之间高度相关的场景,如机器人操纵、语言理解、计算机视觉等。在这些场景中,模型可以从一个任务上学到的知识迁移到其他相关任务。

挑战:元学习面临的主要挑战是如何在训练阶段高效地学习通用表示,以及在测试阶段如何快速适应新任务。此外,元学习通常需要大量任务进行训练,这对数据获取提出了挑战。

前景:元学习被认为是通往通用人工智能的重要途径之一。随着计算能力的提升和数据获取的便利,元学习有望在更多领域得到应用,推动人工智能向更通用、更智能的方向发展。

目前在语言任务上表现最佳的系统通常结合了预训练和有监督微调。这种方法有着悠久的历史,并且呈现向更灵活的迁移方式发展的趋势。首先,通过学习词向量并将其作为任务特定架构的输入(Mikolov等人,2013年;Collobert等人,2011年),然后转移循环网络的上下文表示(Dai和Le,2015年;Peters等人,2018年),最近的工作表明,任务特定架构可能不再必要,只需转移许多自我注意力块就足够了(Radford等人,2018年;Devlin等人,2018年)。

这些方法仍然需要监督训练才能执行任务。当只存在少量或没有监督数据时,另一条研究路径展示了语言模型在执行特定任务方面的潜力,例如常识推理(Schwartz等人,2017年)和情感分析(Radford等人,2017年)。

在本文中,作者连接了这两条研究路径,并继续推进更通用的迁移方法。作者证明语言模型可以在零样本环境下执行下游任务,无需进行任何参数或架构修改。作者通过突出展示语言模型在零样本环境下执行广泛任务的能力,证明这种方法的潜力。作者在不同任务中实现了有前景、竞争性和最先进的结果。

  1. Approach

我们方法的核心在于语言建模。语言建模通常被描述为从一组示例(x1, x2, …, xn)中进行无监督的分布估计,每个示例由可变长度的符号序列(s1, s2, …, sn)组成。由于语言具有天然的顺序性,通常将符号的联合概率分解为条件概率的乘积(Jelinek & Mercer,1980;Bengio et al.,2003):

神经网络-GPT2

这种方法使得能够从 p(x) 以及任何形式为 p(sn−k,…,sn|s1,…,sn−k−1) 的条件概率中采样和估计。在近年来,计算这些条件概率的模型的表达能力得到了显著提高,例如采用自注意力机制如 Transformer (Vaswani et al., 2017)。


关于如何使用语言模型进行无监督的多任务学习,作者总结了如下几点:

  • 语言模型通过对符号序列的无监督分布进行估计

指的是语言模型学习预测符号序列的概率分布,不需要对符号序列进行标注。近年来,自注意力机制如Transformer的出现,使得语言模型在预测符号序列概率分布方面的表达能力得到了提升。Transformer通过多头注意力机制,可以同时处理序列中的多个符号之间的关系,提高了模型的表达能力。

  • 学习执行单个任务

执行单个任务可以表达为估计条件分布p(output|input),意思是机器学习模型通过学习输入与输出之间的关系来执行单个任务。例如,对于机器翻译任务,模型通过学习输入的英文句子和输出的法文句子之间的关系来执行翻译任务。

为了执行多种任务,需要考虑输入和任务,建模为p(output|input,task),意思是模型不仅要考虑输入,还需要考虑执行的任务类型。例如,在执行机器翻译任务时,模型不仅要考虑输入的英文句子,还需要考虑翻译任务本身,也就是将输入从英文翻译成法文。因此,模型需要建模p(output|input,task),其中output是法文句子,input是英文句子,task是翻译任务。通过考虑任务类型,模型可以灵活地在多种任务之间切换。

  • 任务条件的实现方式

任务条件通常在架构级别实现:指的是在模型架构中加入特定任务的部分,例如为机器翻译任务加入编码器和解码器。编码器负责将输入文本编码成隐藏表示,解码器负责根据编码的隐藏表示解码出输出文本。

任务条件也可以在算法级别实现:例如MAML采用内外循环优化框架。内循环优化针对具体任务调整模型参数,外循环优化则针对多个任务共享的模型参数进行调整。

通过自然语言描述来指定任务,将任务、输入和输出都表示为符号序列。例如,翻译任务的描述可以表示为“translate to french”,输入可以表示为英文文本,输出可以表示为法文文本,这些都是符号序列。

通过这种符号序列的表示方式,语言模型可以灵活地在不同任务之间切换,而不需要改变模型架构。这使得语言模型具有通用性,能够处理多种NLP任务。

  • 单一模型执行多种任务

McCann等(2018)证明,可以通过这种格式的示例训练一个单一模型,MQAN,来推断和执行许多不同的任务。

  • 无监督多任务学习

当语言模型在足够大和多样化的数据集上训练时,它能够执行许多下游任务,无需显式监督。这表明高容量模型可以学习执行任务,而不需要参数修改或架构修改。


在多任务学习中,通常需要明确指定每个任务的输入和输出。然而,McCann等(2018)语言提供了一种灵活的方式来表示任务、输入和输出,即通过符号序列的形式进行表达。例如,翻译任务可以表示为(英文句子,法文句子),问答任务可以表示为(文档,问题,答案)等。

监督学习的目标是最大化正确输出(标签)的条件概率,而无监督学习的目标是最大化整个符号序列的概率。虽然监督学习只在序列的子集上进行评估,但其全局最优解与无监督学习的全局最优解是相同的。

在无监督环境下,语言模型通过最大化整个符号序列的概率来学习执行任务。但是,实际中能否优化无监督目标到收敛是一个挑战。初步实验显示,足够大的语言模型可以在这种略显玩具式的设置中执行多任务学习,但学习速度比显式监督的方法慢。


作者探讨了在无监督环境下,语言模型是否能够通过学习自然语言序列中的任务,来更好地预测这些任务。它涉及到以下几个核心概念:

  • 从“语言任务设置”到“野外语言的混乱”

从理想化的语言任务设置过渡到实际复杂的野外语言环境,是一个巨大的挑战。

理想化的语言任务设置:理想化的语言任务设置通常涉及明确的任务描述、输入和输出格式,以及对正确输出进行标注。这种设置有利于语言模型进行有监督的学习,即通过最大化正确输出的条件概率来进行训练。

实际复杂的野外语言环境:野外语言环境涉及大量噪声、歧义和不规范的用法。在这种环境下,语言任务的描述、输入和输出格式可能不明确,正确输出也不一定存在。这种环境对语言模型的鲁棒性和泛化能力提出了更高的要求。

挑战:从理想化的语言任务设置过渡到野外语言环境,需要语言模型克服以下挑战:

噪声和歧义处理:处理野外语言中的大量噪声和歧义。

鲁棒性:对各种不规范的语言用法保持鲁棒性。

泛化能力:在没有明确标注的情况下,能够推断和执行语言中的各种任务。

无监督学习:在野外语言环境中,往往无法获得明确的标注,因此需要依靠无监督学习。

策略:为了应对这些挑战,可以采取以下策略:

大量训练数据:使用大规模真实语言数据集进行训练,以提高模型的鲁棒性和泛化能力。

无监督预训练:先进行无监督预训练,再进行微调,以增强模型的语言理解能力。

多任务学习:同时学习执行多种语言任务,以增强模型的通用性和适应性。

综上所述,从理想化的语言任务设置过渡到实际复杂的野外语言环境,对语言模型的鲁棒性、泛化能力和无监督学习能力提出了巨大挑战。通过大量训练数据、无监督预训练和多任务学习等策略,语言模型有望克服这些挑战,实现从理想化到野外的飞跃。

  • Weston (2016) 对话环境下的观点

观点:能够直接从自然语言学习的系统的重要性。具体来说,他通过一个概念验证实验展示了这一点,即在不使用奖励信号的情况下,通过预测教师输出的方式来学习问答任务。

对话环境下的学习:对话环境提供了一个交互式的学习场景,其中系统可以通过与人类用户的对话来学习。这种环境有利于系统获取丰富的反馈信息,包括用户的语言输入和教师的输出。

无监督学习的重要性:然而,Weston认为仅依赖交互式对话环境可能过于受限,因此提出了直接从自然语言中学习的重要性。这避免了交互式环境的限制,使系统能够更广泛地学习。

预测教师输出的方法:Weston提出了一种基于预测教师输出的无监督学习方法。在问答任务中,系统不需要明确的奖励信号,而是通过预测教师的回答来学习。这种方法的关键在于教师回答可以被视为问题的正确输出,因此预测教师回答相当于最大化正确输出的条件概率。

概念验证实验:Weston通过概念验证实验证明了这种无监督学习方法的可行性。实验结果表明,仅通过预测教师回答,系统可以学习执行问答任务,而无需明确的奖励信号。

启示:这一发现为无监督语言模型的学习提供了启示。它表明,即使在没有明确标注的情况下,语言模型也可以通过预测自然语言中的正确输出(如教师回答)来学习执行任务。

通用性:这种方法具有更广泛的适用性,因为它不依赖于交互式对话环境,而是可以直接应用于任何自然语言文本。这为构建能够从自然语言中学习的通用语言系统提供了重要参考。

综上所述,Weston (2016)通过概念验证实验证明了无监督语言模型可以通过预测教师输出来学习执行问答任务,而不需要明确的奖励信号。这为构建能够直接从自然语言中学习的通用语言系统提供了重要启示。

  • 互联网信息的无交互式获取

这段内容涉及互联网信息的无交互式获取,即用户可以通过被动方式获取大量信息,而不需要进行交互式通信。这具有更广泛的适用性,为构建通用性更强的语言系统提供了重要启示。

互联网信息的被动获取:用户可以浏览网站、阅读文章、观看视频等方式获取信息,而不需要进行交互式通信,例如提问、搜索等。这种被动获取方式更符合用户的日常习惯,因此具有更广泛的适用性。

无交互式信息的丰富性:互联网上包含了大量无交互式信息,这些信息涵盖了各个领域和话题,为构建通用性更强的语言系统提供了丰富的训练资源。通过从这些信息中学习,语言模型可以获取更广泛的语言知识。

无交互式信息的学习价值:与交互式通信相比,无交互式信息更真实、更自然,因此对语言模型的学习具有更高的价值。学习这些信息有助于语言模型更好地理解和生成自然语言。

语言模型的通用性:通过从互联网上的无交互式信息中学习,语言模型可以获取更广泛的语言知识,从而提高其通用性。通用性更强的语言模型可以更好地适应各种语言任务和环境。

启示:这一发现为构建通用性更强的语言系统提供了重要启示。它表明,除了交互式通信之外,语言系统还可以从互联网上的无交互式信息中学习,以获取更广泛的语言知识。这为构建能够从自然语言中学习的通用语言系统提供了重要参考。

综上所述,互联网上的无交互式信息为构建通用性更强的语言系统提供了丰富的训练资源和重要启示。通过从这些信息中学习,语言模型可以获取更广泛的语言知识,从而提高其通用性和适应性。这为构建能够从自然语言中学习的通用语言系统提供了重要参考。

  • 语言模型推断和执行任务的能力

作者讨论了具有足够容量的语言模型将开始学习推断和执行自然语言序列中展示的任务的能力,以便更好地预测这些任务,而不管它们的获取方式如何。

自然语言序列中的任务展示:在自然语言中,任务通常以某种形式展示,例如问答任务以问题和答案的序列形式出现,翻译任务以源语言句子和目标语言句子的对齐形式出现等。

语言模型的学习能力:具有足够容量的语言模型可以学习如何推断和执行这些任务。这意味着模型可以学习如何从语言序列中提取出任务相关的信息,并基于这些信息生成任务所需的输出。

更好的预测:学习推断和执行这些任务将使语言模型能够更好地预测这些任务。例如,对于问答任务,模型可以学习如何根据问题生成正确的答案。

获取方式的无关性:这种学习能力与任务的获取方式无关。无论任务是交互式产生的,还是从非交互式文本中提取的,模型都可以学习如何推断和执行这些任务。

无监督多任务学习:这实际上是一种无监督多任务学习。模型通过观察语言序列中展示的任务来学习如何执行这些任务,而无需明确的监督信号。

模型容量的重要性:这种学习能力与模型的容量密切相关。只有当模型具有足够容量时,才能从复杂的语言序列中学习如何执行各种任务。

通用语言系统的潜力:这种学习能力的存在表明,仅通过训练一个足够大的语言模型,就可以构建一个通用语言系统,该系统可以执行各种语言任务,而无需为每个任务单独训练模型。

综上所述,具有足够容量的语言模型将开始学习如何推断和执行自然语言序列中展示的任务,以便更好地预测这些任务。这种学习能力与任务的获取方式无关,是一种无监督多任务学习。这种学习能力的存在为构建通用语言系统提供了潜力。

  • 无监督多任务学习的实现

无监督学习:无监督学习指不需要标注数据,模型仅通过观察输入和输出之间的相关性来学习。在这种学习方式下,模型不需要知道每个输入对应的正确输出是什么。

多任务学习:多任务学习指训练一个模型同时执行多个任务。与单任务学习相比,多任务学习可以利用任务之间的相关性来提高模型在各个任务上的性能。

无监督多任务学习的实现:在语言模型中实现无监督的多任务学习,意味着模型可以同时执行多个语言任务,而无需为每个任务提供明确的标注数据。

学习多个任务:模型通过观察自然语言文本中同时出现的多个任务来学习如何执行这些任务。例如,在一段对话中,模型可以同时学习问答、翻译、摘要等多个任务。

利用相关性提高性能:模型可以利用不同任务之间的相关性来提高在各个任务上的性能。例如,问答任务和翻译任务都需要理解语义,因此可以相互促进。

通用语言系统的构建:这种无监督的多任务学习使得语言模型具有执行各种语言任务的能力,从而可以构建一个通用的语言系统。

模型容量的重要性:实现这种无监督多任务学习需要模型具有足够的容量。只有足够大的模型才能从复杂的自然语言文本中学习如何执行多个任务。

综上所述,如果语言模型能够通过观察自然语言文本来学习如何执行多个任务,而不需要为每个任务提供明确的标注数据,那么它实际上将执行无监督的多任务学习。这种学习能力对于构建通用语言系统具有重要意义。

  • 语言模型零样本设置下性能的测试

这段内容探讨了如何通过分析语言模型在多种任务上的零样本设置下的性能来测试其在无监督多任务学习方面的能力。

零样本设置:在零样本设置下,模型仅使用其预训练的语言模型,而不进行任何参数修改或微调。这使得模型无法获取特定任务的信息。

多种任务:分析涉及多个不同的语言任务,包括问答、翻译、摘要、推理等。这些任务代表了语言模型需要掌握的各种语言能力。

性能评估:评估语言模型在零样本设置下的性能,即其在未进行任何特定任务训练的情况下执行这些任务的能力。

验证无监督多任务学习:如果语言模型在零样本设置下能够执行多个任务,那么这将验证其是否具有无监督多任务学习能力。

性能指标:性能评估通常采用各种指标,如准确率、BLEU分数、ROUGE分数等,以量化模型在不同任务上的表现。

比较基准:为了评估模型的表现,通常会与针对特定任务训练的基线系统进行比较,以验证模型在零样本设置下的有效性。

性能趋势:分析语言模型在零样本设置下执行不同任务的能力,有助于了解其通用性和适应性。通常情况下,更大容量的模型在执行更多任务时表现更好。

启示:这一评估有助于理解语言模型在无监督多任务学习方面的能力,并为未来通用语言系统的构建提供指导。

综上所述,通过分析语言模型在多种任务上的零样本设置下的性能,可以验证其是否具有无监督多任务学习能力。这种评估为理解模型的通用性和适应性提供了重要参考,并为构建通用语言系统提供了重要启示。

  1. Training dataset

以往的研究通常是在特定领域的数据集上训练语言模型,例如新闻报道、维基百科或小说等。而本文的研究目标则是尽可能构建一个大规模且多样化的数据集,以涵盖不同领域和上下文中的自然语言任务演示。

从专业角度来解释,大规模多样化的数据集在训练语言模型时具有以下优势:

泛化能力:通过训练语言模型在多样化的数据集上,可以增强模型的泛化能力,使其在面对不同领域和上下文的语言任务时表现更加稳健。

任务表示:多样化的数据集有助于语言模型学习到更丰富的语言表示,包括语法、语义、上下文等层面,从而有利于语言模型的性能。

数据质量:在构建大规模数据集时,可以利用数据质量作为过滤标准,筛选出优质的数据,有助于提升语言模型的训练效果。

任务覆盖面:多样化的数据集能够覆盖更多类型的语言任务,如问答、翻译、文本摘要等,从而让语言模型具有更强的任务适应能力。

模型优化:大规模数据集为模型提供了更多的训练样本,有利于模型参数的优化,从而提升模型性能。

综上所述,本文采用构建大规模多样化数据集的方法,旨在提升语言模型的泛化能力、丰富语言表示、提升训练效果和优化模型性能,对构建高效通用的语言模型具有重要意义。

神经网络-GPT2

作者使用Common Crawl等大规模网络抓取数据集进行语言建模,这种方式既有优势、也有挑战:

数据规模和多样性:Common Crawl等大规模网络抓取数据集包含大量多样化的文本,这对于训练通用语言模型具有显著优势,因为更多的训练数据可以提高模型的泛化能力。

数据质量问题:尽管这些数据集规模巨大,但存在严重的质量问题,如包含大量难以理解的文档内容,这可能对语言模型的训练产生负面影响。

数据子集化策略:Trinh & Le (2018)的研究采用了对Common Crawl进行子集化的策略,即只保留与特定任务目标数据集相似的数据,以改善特定任务的性能。这种方法在特定任务中是实用的,但存在局限性,因为它可能限制了模型对更广泛任务的适应性。

避免任务假设:本文的研究目标是在事先不对任务做任何假设的情况下,训练一个通用语言模型。因此,本文采用了大规模且多样化的WebText数据集,而不是对Common Crawl进行子集化,以使模型具有更强的泛化能力和通用性。

作者具体是如何筛选高质量数据的?

在文本数据挖掘领域,高质量数据是模型训练的关键。该段落详细阐述了文档作者如何创建一个高质量、规模庞大的文本数据集,即WebText。

作者首先明确提出了数据集构建的目标,即强调文档质量。为了实现这一目标,作者并未直接抓取整个互联网,而是只抓取了经过人工策划或筛选过的网页。这一选择背后的考虑是,直接抓取整个互联网将产生大量噪声和无意义的文本,不利于模型训练。而通过人工策划或筛选,可以过滤掉低质量的网页,保留高质量的文本。

由于手动筛选整个网页抓取的成本高昂,作者采用了一种高效的启发式方法:从Reddit社交平台上抓取至少获得3个赞的出站链接。Reddit用户通过点赞来表示他们认为链接有趣、有教育意义或仅仅是有趣。因此,获得一定数量的赞可以视为链接质量的初步筛选指标。

WebText数据集包含这45百万个链接的文本子集。为了从HTML页面中提取文本,作者使用了Dragnet和Newspaper这两种内容提取工具。在初步版本中,WebText不包括2017年12月之后创建的链接。经过去重和一些基于启发式的清洗后,数据集包含略微超过800万个文档,总共40GB的文本。作者还特意从WebText中移除了所有维基百科文档,以避免训练集与测试集重叠,影响模型评估效果。

综合来看,作者通过高效抓取高质量链接、有效提取内容、清洗数据等步骤,成功构建了一个既庞大又高质量的文本数据集,为后续的语言模型训练提供了坚实的基础。

  1. Input Representation
  1. 通用语言模型的输入表示需求
  1. 通用语言模型需要能够计算(并生成)任何字符串的概率。这意味着模型需要能够处理任意输入,而不会受到预处理步骤的限制。理想的输入表示方法应该能够表示任何Unicode字符串。
  1. 当前语言模型的限制
  1. 目前的大规模语言模型在预处理步骤中包括小写转换、分词和词汇表外词元等,这些步骤限制了模型能够处理的字符串范围。虽然将Unicode字符串作为UTF-8字节的序列进行处理理论上可以满足需求,但目前的字节级别语言模型在处理大型数据集时,其性能仍然不如词级别的语言模型。在WebText数据集上训练标准字节级别语言模型时,也观察到了类似的性能差距。

该如何提升字节级别的语言模型?

可以从以下几个方面进行考虑:

数据预处理

对原始数据进行标准化处理,包括统一编码、过滤噪声、去除停用词等,以提升数据质量。

对数据进行增强,如通过人工合成或半监督方式增加训练数据量,从而丰富模型的训练语料。

模型架构

引入深度学习中的新型架构,如Transformer,以提高模型的表达能力。

融合字符级和词级信息,通过多任务学习同时建模字符序列和词序列,以充分利用字符和词的互补信息。

损失函数

设计更适合字节级别建模的损失函数,例如引入字符级别的预测任务,以增强模型对字符序列的建模能力。

使用自监督预训练技术,如BERT,通过预测被遮蔽的字符或词来提升模型对语言的深层理解。

训练技巧

采用更高效的优化算法,如AdamW,来优化模型参数。

应用学习率衰减策略,如余弦退火,以帮助模型收敛到最优解。

超参数调优

进行网格搜索或随机搜索来找到最佳的模型超参数配置。

使用贝叶斯优化等自动搜索技术,以更高效地找到最优超参数。

评估与调试

使用多种评估指标全面评估模型性能,包括准确率、召回率、F1值等。

分析错误预测以定位模型弱点,并通过调试和优化来改进模型。

迁移学习

使用预训练的字符或词级别语言模型进行迁移学习,以快速获得良好的初始化参数。

结合具体任务进行微调,以使模型适应特定领域的语言环境。

这些改进措施可以综合使用,以提升字节级别语言模型的性能。

什么是外词元?

外词元(Out-of-Vocabulary,OOV)是指在词汇表中没有出现过的词或短语。在自然语言处理中,外词元通常指模型在训练阶段未见到但在实际应用中可能出现的词或短语。

当前许多语言模型,如BERT等,采用词元嵌入(Token Embedding)来表示词汇表中的词。这种方法的缺点是模型只能处理词汇表中的词,对于词汇表之外的词(即外词元)则无能为力。

为了处理外词元,常用的方法包括:

使用字符级表示(Character-level Representation),即直接将词拆分成字符序列,用字符的嵌入表示整个词。

使用子词单元(Subword Unit),如字节对编码(Byte Pair Encoding,BPE)将词拆分成子词单元,使模型可以表示未登录词。

使用外部词典(External Dictionary),即预先构建一个包含常见外词元的词典,在预处理阶段将外词元替换为词典中的词。

使用零样本学习(Zero-shot Learning)技术,使模型能够处理未见过的类别。

这些方法可以扩展模型处理外词元的能力,提高其在实际应用中的鲁棒性。

字节对编码(Byte Pair Encoding, BPE)是一种实用的中间方法,用于处理介于字符级和词级语言建模之间的文本数据。它通过合并出现频率高的符号对来生成词元,有效地将词级输入与字符级输入进行插值。

尽管BPE通常以字节序列为操作对象,但许多参考实现是基于Unicode代码点进行的。这意味着为了处理所有可能的Unicode字符串,需要构建一个包含所有Unicode符号的基础词汇表,其大小超过130,000个词元。然而,在BPE中通常使用的词汇表大小仅为32,000到64,000个词元,这使得构建完整的基础词汇表变得不切实际。

相比之下,字节级的BPE只需要一个包含256个词元的基础词汇表,这大大降低了模型所需的计算资源。但是,直接将BPE应用于字节序列会导致次优的合并结果,因为BPE在构建词元词汇表时采用了基于频率的贪心启发式方法。这会导致一些常见的词(如“dog”)以多种变体(如“dog.”、“dog!”、“dog?”)出现在词汇表中,从而浪费了有限的词汇表空间和模型容量。

为了解决这个问题,本文提出了一种改进方法,即阻止BPE在字节序列中的不同字符类别之间进行合并。同时,允许空格跨越不同字符类别进行合并,这样可以显著提高压缩效率,同时只引入了少量的词汇碎片。这种改进方法既保留了BPE的通用性,又避免了次优合并结果,提高了字节级BPE在处理文本数据时的性能。

次优合并是什么?

次优合并(sub-optimal merges)是指在BPE的迭代过程中,合并操作选择了一个不太理想的对子。在BPE中,每个符号对的出现频率都会被记录下来,然后按照频率从高到低进行合并。然而,由于BPE采用的是贪心策略,它只考虑当前合并操作的最佳选择,而不考虑整个迭代过程中所有可能的合并操作。

举个例子,如果我们要合并“the”和“quick”这两个词,那么按照频率,“the”和“quick”的组合“thequick”可能会比“the”和“quick”的组合“quickthe”先被合并。然而,如果我们考虑整个序列,可能“quickthe”是更好的选择,因为它会生成更多的有效词元(如“quickly”)。

因此,次优合并是指在迭代过程中,BPE没有选择全局最优的合并操作,而是选择了一个局部最优的合并操作。这会导致构建的词汇表不够紧凑,即存在冗余的词元,从而降低了BPE的效率。

作者是如何防止次优合并问题?

作者在构建语言模型时采用的一种输入表示方法,旨在结合词级语言模型的优点与字节级方法的通用性。该方法的主要内容包括:

采用字节对编码(BPE)作为中间方案,既能处理词级频繁出现的符号序列,又能处理字符级不频繁出现的符号序列。

防止BPE在不同字符类别之间进行合并,以避免次优合并问题,例如防止字母和标点符号合并。

为空格添加例外,允许空格跨越不同字符类别进行合并,以显著提高压缩效率。

仅允许同一字符类别内的符号对进行合并,例如只允许字母与字母合并,标点与标点合并等。

该方法能够为任何Unicode字符串赋予概率,因此可在任何数据集上评估语言模型,不受预处理、分词或词汇表大小的影响。

结合词级语言模型的实证优点与字节级方法的通用性,在处理大规模文本数据时提高了语言模型的性能。

总的来说,该方法在构建输入表示时综合考虑了词级和字节级的优势,通过限制BPE的合并范围并允许空格跨类别合并,使语言模型能够更高效地处理各种数据集,为大规模文本处理提供了有效的技术支持。

  1. Modle

作者在构建语言模型时采用的基于Transformer架构的模型。该模型在很大程度上继承了OpenAI GPT模型的设计,但进行了一些改进。具体来说:

  1. 网络结构修改:原始的Transformer模型中,层归一化位于每个子块的输出部分。而作者将其调整到每个子块的输入部分,这种调整类似于预激活残差网络的设计。这样做可以增强梯度在训练过程中的传播,有助于改善模型训练效果。
  2. 归一化改进:在最后一个自注意力块后添加了一个额外的层归一化,以进一步稳定模型训练过程。
  3. 初始化参数调整:在原始的Transformer模型中,只有一个层归一化位于整个网络的输出部分。作者在最后一个自注意力块之后添加了一个额外的层归一化,这可以进一步稳定模型训练过程,减少训练过程中的梯度消失或爆炸问题。
  4. 残差层权重缩放:在初始化时,作者将残差层的权重按1/√N的比例进行缩放,其中N是残差层的数量。这样做是为了平衡不同层之间的权重贡献,避免权重过大或过小导致的训练不稳定问题。
  5. 词汇表扩展:将词汇表扩展到50,257个词,以容纳更多的语言元素,提高模型的识别能力。
  6. 上下文大小增加:将上下文大小从512个词增加到1024个词,以更好地捕捉长距离依赖关系。
  7. 批量大小调整:使用更大的批量大小512,以提高训练效率,同时避免过拟合。

这些改进旨在提高模型的表示能力,使其更适合处理大规模文本数据。通过调整网络结构、初始化参数和批量大小,模型可以更好地学习文本中的长距离依赖关系,从而提高语言建模的性能。

  1. Experiments

本文介绍了作者训练并评估了四个大小约为对数均匀分布的语言模型,模型大小如下:

神经网络-GPT2

具体内容如下:

  1. 模型大小:作者构建了四个大小不同的语言模型,这些模型的大小呈现对数均匀分布。最小模型相当于原始GPT模型,第二小模型相当于BERT模型中的最大模型。这表明作者在构建模型时考虑了不同规模的预训练语言模型,以便进行比较和评估。
  2. 参数规模:最大的模型,即GPT-2,其参数数量比原始GPT多了一个数量级。这意味着GPT-2具有更强的表示能力,可以更好地学习大规模文本数据中的复杂模式。
  3. 学习率调优:作者为每个模型手动调优了学习率,以在WebText数据集的5%留出样本上获得最佳的困惑度。学习率是模型训练的关键超参数,直接影响模型训练效果。
  4. 模型欠拟合:所有模型在WebText数据集上仍然表现出欠拟合现象,这意味着模型还没有完全学习到数据集中的全部信息。随着更多训练时间的增加,留出样本的困惑度有所改善,说明模型的表达能力在增强。
  5. 比较评估:作者通过构建不同大小的语言模型,并手动调优学习率,来评估模型在自然语言处理任务中的表现。这种评估方式有助于了解模型规模和学习率对最终性能的影响,为构建高效的语言模型提供了重要参考。

3.1. Language Modeling

GPT-2是基于Transformer的大规模预训练语言模型,参数量达15亿,采用字节级BPE输入表示。在40GB的WebText数据集上进行预训练。

作者对无监督的多任务学习语言模型GPT-2进行了评估,主要结论如下:

  • 在多个NLP任务上进行了零样本测试,包括语言建模、儿童书测试、阅读理解、文本摘要、翻译和问答。结果显示GPT-2在多个任务上达到或超过基线系统的性能,无需任何任务特定的训练。
  • 随着模型规模的增加,GPT-2在各项任务上的性能持续提升,展现出高容量模型在零样本任务迁移中的关键作用。
  • 分析了WebText训练数据与各测试集的重叠程度,结果表明数据重叠对性能提升有一定帮助,但并非主要原因。
  • GPT-2展现出了一些记忆训练数据的行为,同时保持了生成样本的多样性。它还能处理未见过的分布外的输入。
  • 该研究展示了仅通过大规模预训练,语言模型可以学习执行各种下游任务,为进一步构建通用语言处理系统提供了启发。但GPT-2的零样本性能仍需进一步提升。

作者是如何检测重叠程度的?

具体方法如下:

创建Bloom Filter:作者首先为WebText训练数据集构建了一个包含8-gram的Bloom Filter,以检测测试集中的8-gram是否存在于WebText训练数据中。

标准化处理:为了提高召回率,作者对字符串进行了标准化处理,只保留小写字母和数字,并用单个空格作为分隔符。

构建Bloom Filter:构建的Bloom Filter允许错误接受率为10^-8,并且作者通过生成1百万随机字符串来验证了其较低的假阳性率。

评估测试集重叠度:利用Bloom Filter,作者计算了各测试集中存在于WebText训练数据中的8-gram的比例,即测试集与WebText训练集的重叠度。

结果分析:分析结果显示,各测试集与WebText训练集的重叠度在1-6%之间,平均为3.2%。作者还发现,许多测试集与其自身的训练集也存在较大重叠。

总结:作者认为数据重叠对性能提升有一定帮助,但并非主要原因。为了更好地评估模型在未见数据上的泛化能力,作者建议在创建新NLP数据集时使用n-gram去重作为验证步骤。

通过这一评估方法,作者能够量化WebText训练数据与各测试集之间的重叠程度,为进一步分析模型性能提供了重要参考。

  1. childern’s book test

儿童书测试(CBT)是由Hill等人于2015年提出,旨在评估语言模型在不同类型单词上的表现,包括命名实体、名词、动词和介词。该测试不采用困惑度作为评价指标,而是通过自动构建的填空测试来评估模型的准确性。具体来说,CBT会生成包含10个候选词的填空测试,要求模型预测被省略的单词是哪一个。在处理这一任务时,研究者根据原始论文中引入的语言模型方法,计算每个候选词的概率以及该候选词条件下的其余句子的概率,然后选择概率最高的候选词作为预测结果。

神经网络-GPT2

从图2中可以观察到,随着模型规模的增加,其性能呈现出稳步提升的趋势,并且逐渐接近人类在填空测试中的表现水平。此外,研究者还对CBT数据集与WebText训练数据集之间的重叠度进行了分析。结果显示,CBT测试集中的一个样本《丛林书》与WebText存在重叠,因此研究者报告了未与WebText训练数据集重叠的CBT验证集的结果。

在针对CBT的评估中,GPT-2模型在普通名词和命名实体识别上取得了新的最佳性能,分别达到了93.3%和89.1%的准确率。值得注意的是,研究者对CBT数据集进行了去词化处理,以消除Penn Treebank(PTB)风格标记的影响,从而提高了评估的公正性。综合来看,GPT-2模型在CBT上的表现充分展现了其强大的多任务学习能力,尤其是在零样本环境下。

  1. Lambada

该段内容讨论了LAMBADA数据集和GPT-2在该数据集上的表现。LAMBADA数据集旨在评估模型对长距离文本依赖关系的建模能力,要求模型根据至少50个词的上下文预测句子的最后一个词。GPT-2模型在LAMBADA数据集上取得了显著改进,将状态从99.8的困惑度提高到了8.6,并将准确率从19%提高到了52.66%。分析GPT-2的预测错误发现,大多数预测都是有效的句子延续,但并非有效的最后一个词。这表明GPT-2没有利用额外的约束,即预测的词必须是句子的最后一个词。为了近似这个约束,添加一个停用词过滤器,将准确率进一步提高到63.24%,比之前的最优结果提高了4%。之前的最优方法限制了模型的输出仅限于上下文中出现的词,但这种限制对GPT-2是有害的,因为19%的答案不在上下文中。因此,作者使用了未进行预处理的LAMBADA数据集来评估GPT-2的性能。总的来说,GPT-2在LAMBADA数据集上的表现显著,展现了其强大的长距离文本依赖关系建模能力,并进一步改进了该数据集的最优性能。

  1. Winograd schema challenge

Winograd模式挑战是一个评估常识推理能力的标准测试,旨在评估模型解决文本中歧义的能力。近期,Trinh和Le(2018年)使用语言模型在挑战中取得了显著进展,通过预测歧义的解决方案概率更高。本研究遵循了他们的问题表述,并利用完全评分和部分评分技术对GPT-2模型进行了评估。

神经网络-GPT2

结果显示,GPT-2将最先进准确率提高了7%,达到70.70%。然而,由于数据集仅有273个示例,因此推荐读者参考Trichelair等人(2018年)的文章,以帮助更好地理解这一结果。总的来说,该内容反映了语言模型在Winograd模式挑战中的表现,展现了其在常识推理方面的优势,以及进一步优化和改进的潜力。

  1. Reading comprehension

CoQA数据集由Reddy等人于2018年提出,包含来自7个不同领域的文档,每个文档都配对了一段提问者和回答者之间的自然语言对话。该数据集旨在测试模型在阅读理解方面的能力,同时也关注模型回答依赖于对话历史的问题(例如“为什么”)的能力。这种基于对话的问答形式更能模拟现实场景中人与人之间的交流,因此被认为是评估模型理解和推理能力的更具挑战性的数据集。

在CoQA数据集上,GPT-2在给定文档和对话历史的情况下,使用贪婪解码生成答案,达到了55的F1分数。这一表现超过了3个基线系统,而这些基线系统需要使用大量的手动收集的问答对进行训练。目前最先进的基于监督学习的系统,基于BERT的模型,接近人类的89 F1表现。虽然GPT-2在无监督情况下表现令人兴奋,但分析其答案和错误发现,GPT-2常采用基于简单检索的启发式方法,例如直接使用文档中的名字回答“谁”问题。这表明,尽管GPT-2具备强大的语言理解能力,但在特定任务上仍有改进空间。综合来看,这一实验结果展现了GPT-2强大的无监督学习能力,为未来构建无需大量标注数据的通用语言模型提供了可能。

贪婪解码是什么?

使用贪婪解码(greedy decoding)是一种简单的解码策略,通常用于序列生成任务,如机器翻译或文本摘要。在这种策略中,解码器在每个时间步选择概率最高的输出符号,并将其作为下一个时间步的输入,而不会考虑其他可能的符号组合。具体来说,在生成每个符号时,解码器会计算当前状态对应的输出符号的分布,然后选择概率最高的符号。这个过程一直重复,直到生成序列结束符号或达到预设的最大长度。

贪婪解码的优点是实现简单且速度快,但缺点是容易陷入局部最优解,无法生成全局最优解。也就是说,虽然每次选择概率最高的符号,但这些局部最优解的累积可能导致整个序列的优化程度较低。因此,贪婪解码通常适用于生成较短的序列,或者作为快速解码策略进行初步评估。对于需要更高生成质量的场景,通常会采用更复杂的解码策略,如束搜索(beam search)或采样解码(sampling decoding)。

  1. Summarization

这段内容主要描述了使用GPT-2模型在CNN和Daily Mail数据集上进行文本摘要实验的结果。为了引导GPT-2生成摘要,研究人员在文章后添加了“TL;DR:”的提示文本,并采用Top-k随机采样生成100个token,其中k=2,以减少重复并促进生成更具抽象性的摘要。他们选取了这100个token中的前3个句子作为摘要。尽管生成的文本在定性上类似于摘要,但它们倾向于关注文章中的最近内容,并可能混淆特定细节。

在常用的ROUGE 1,2,L指标上,生成的摘要性能仅略优于随机选择3个句子,且当移除“TL;DR:”提示时,GPT-2的汇总指标性能下降了6.4分。这一结果证明了使用自然语言提示在语言模型中调用特定任务行为的能力,同时也表明了GPT-2在无监督文本摘要任务上的潜力。这一实验为进一步研究GPT-2在生成式摘要任务中的应用提供了重要参考。

神经网络-GPT2

什么是TL;DR?

TL;DR是英文短语’Too Long; Didn’t Read’的缩写,中文可以翻译为“太长没看”。这个短语常用于总结或概括长篇大论的要点,以便那些没有足够时间或耐心阅读全文的人能够快速了解文章的主要内容。TL;DR可以应用于各种长篇文本,如学术论文、技术报告、博客文章等。

下面是一个典型的TL;DR示例:

原文标题:A Comprehensive Analysis of the Impact of Deep Learning on Image Recognition

原文摘要:本文对深度学习对图像识别的影响进行了全面分析。首先,我们介绍了深度学习的发展历史和关键技术。然后,详细阐述了卷积神经网络、循环神经网络和生成对抗网络等深度学习模型在图像识别领域的应用。接着,讨论了深度学习在提高图像识别准确率、降低计算复杂度和拓展应用场景等方面的优势。最后,我们探讨了深度学习面临的一些挑战和未来发展趋势。

TL;DR: 深度学习对图像识别领域产生了重大影响,提高了识别准确率,降低了计算复杂度,并拓展了应用场景。然而,深度学习也面临一些挑战,需要进一步研究。

  1. Translation

使用GPT-2模型进行无监督机器翻译的实验结果。具体包括以下关键点:

  1. 实验目的:测试GPT-2模型是否能够通过无监督方式学习进行机器翻译。
  2. 实验方法:在语言模型中提供英法对照的示例句对,例如“英文句子=法文句子”,以帮助模型推断出翻译任务。然后给出一个英文句子,让模型预测法文翻译。
  3. 结果分析:
  4. 在WMT-14英法测试集上,GPT-2的BLEU得分为5,略低于之前使用双语词典进行逐词替换的无监督机器翻译方法。
  5. 在WMT-14法英测试集上,GPT-2表现更好,达到了11.5 BLEU,超过了其他几个无监督机器翻译基线,但仍然远远低于当前最佳无监督机器翻译方法的33.5 BLEU。
  6. 出乎意料的是,GPT-2在法英测试集上表现较好,尽管在训练数据中故意去除了非英语网页。
  7. 数据分析:通过字节级语言检测器确认,WebText训练集中只有10MB的法语数据,与先前无监督机器翻译研究中使用的单语法语语料库相比,数据量小了500倍。
  8. 结论:结果表明,GPT-2模型具备无监督学习翻译任务的能力,尽管性能仍待提高。该实验为进一步研究无监督机器翻译提供了重要参考。
  1. Question answering

这段内容介绍了使用自然问题数据集来测试GPT-2模型在生成事实性简短答案方面的表现。具体内容如下:

  1. 实验目的:通过评估GPT-2在自然问题数据集上生成正确答案的频率,测试其内部包含的信息量。
  2. 实验背景:在之前的神经对话模型研究中(Vinyals & Le, 2015),由于缺乏高质量评估数据集,只能提供定性的评估结果,缺乏量化指标。而最近发布的自然问题数据集(Kwiatkowski et al., 2019)提供了一个具有前景的定量评估资源,这使得研究者能够更准确地评估模型的性能。
  3. 实验方法:在进行实验时,研究者首先在语言模型的上下文中填充了一些示例问题答案对。这样做的目的是帮助模型更好地理解和推断出数据集所期待的简短答案的风格。接下来,研究者使用阅读理解数据集常用的精确匹配度量标准来评估模型在生成答案时的性能。具体来说,研究者会评估模型生成的答案与数据集中提供的标准答案之间的匹配程度,以此来量化模型的性能。
  4. 实验结果
  5. GPT-2在自然问题数据集上回答了4.1%的问题正确,超过了简单基线系统。
  6. GPT-2在其最确信的1%的问题上准确率达到了63.1%,显示其答案概率分配较为准确。
  7. 表5列出了GPT-2在开发集问题上生成的30个最确信的答案。
  8. 实验讨论:GPT-2的表现在一定程度上受模型容量的影响,因为最小模型未能超过简单基线。与混合信息检索与提取式文档问答的开放域问答系统相比,GPT-2的性能仍有较大提升空间。
  9. 实验意义:该实验为评估GPT-2内部包含的信息量提供了定量指标,为进一步改进语言模型在生成事实性简短答案方面的能力提供了重要参考。

神经网络-GPT2

  1. Generalization vs Memorization

“Generalization vs Memorization”指的是模型在泛化能力和记忆能力之间的权衡。

泛化能力是指模型能够推广到未见过的数据并做出正确预测的能力。一个具有良好泛化能力的模型在训练集上学习后,在测试集上也能够表现出色。

记忆能力是指模型能够记住训练数据中的细节,并在测试时直接利用这些记忆进行预测的能力。一个过度记忆训练数据的模型可能在训练集上表现很好,但在测试集上表现不佳,因为它记住的只是训练数据的细节,而没有学习到数据的真正规律。

在深度学习中,我们希望模型具有良好的泛化能力,避免过度记忆训练数据中的噪声。通常,我们会采用多种技术来提高泛化能力,如正则化、数据增强、dropout等。而“Generalization vs Memorization”这一权衡是深度学习模型设计中需要考虑的重要问题之一。

讨论了WebText语言模型在评估数据集上的表现是否真正源自模型的泛化能力,抑或是仅仅是对训练数据的记忆。作者使用Bloom filter对WebText训练集和多个NLP基准测试集的测试集进行了8-gram重叠分析,结果显示WebText训练集与评估测试集之间的平均重叠率为3.2%,而标准训练集和测试集之间的平均重叠率为5.9%。作者认为,WebText训练数据与评估数据之间的重叠确实为性能提升提供了额外帮助,但并未显著高于标准训练集和测试集之间的重叠,这表明WebText语言模型具备一定的泛化能力。

为了更深入地了解WebText语言模型是否过度记忆训练数据,作者还比较了GPT-2在WebText的训练集和测试集上的表现,发现两者表现相似,且随着模型容量的增加而共同提高,这表明GPT-2并未过度记忆训练数据。最后,作者还展示了GPT-2生成关于“会说话的独角兽”的新闻文章的示例,以说明该模型能够处理未见过的分布外上下文。

综上所述,作者认为WebText语言模型具有泛化能力,而非仅仅依赖于对训练数据的记忆。。

神经网络-GPT2

  1. Related work

在related work中作者提到了,在此之前,相关研究者做的工作和探索,具体如下:

  1. 语言建模的扩展:这一部分提到了在更大规模的数据集上训练更大规模的神经网络语言模型的相关工作。Jozefowicz等人通过扩展RNN语言模型在1亿词基准数据集上的训练,而Bajgar等人则通过构建更大的训练数据集来提高儿童读物测试的成绩。这些工作与本文在WebText大规模语料库上训练不同规模的GPT模型具有相关性。
  2. 有趣的学习功能:这里提到了在语言模型中观察到有趣的学习功能,例如Karpathy等人在RNN语言模型中发现其细胞可以执行线宽跟踪和引号/评论检测,而Liu等人在训练生成维基百科文章的模型中发现其也学会了翻译语言名称。这些发现与本文中观察到的语言模型能够通过学习WebText语料库自动学会执行下游NLP任务的能力相一致。

神经网络-GPT2

  1. 构建大规模网页文本语料库:提到了Davies构建的iWeb语料库,这是一个大规模的网页文本语料库。本文同样构建了WebText大规模语料库,并使用了类似的方法来过滤和提取高质量网页文本。
  2. 预训练表示的研究:涉及了语言任务预训练方法的相关研究,包括词向量、基于机器翻译的表示、以及自然语言推理模型中的表示转移等。这些工作都表明了预训练表示对于下游NLP任务的重要性。
  3. 预训练对下游任务的影响:提到了预训练语言模型对下游任务微调的有益影响,特别是在对话生成和基于对话的问答系统方面。本文中观察到的语言模型可以零样本执行下游任务也支持了这一点。
  4. 预训练表示的理解和评估:提到了大量研究致力于理解、学习和批判性评估监督和无监督预训练方法表示的相关工作。本文通过在WebText语料库上训练语言模型,并评估其在下游任务上的零样本性能,进一步扩展了这一研究方向。

在论文的后面,作者给出了模型中使用的数据示例,我们仅做简单展示,不再详细介绍。

神经网络-GPT2

神经网络-GPT2