OpenAI的Generative Pre-trained Transformer(GPT)模型通过引入非常强大的语言模型,在自然语言处理(NLP)领域引起了巨大震动。这些模型可以执行各种NLP任务,如问题解答、文本蕴涵、文本总结等,而无需任何监督训练。这些语言模型只需要很少或根本不需要示例就可以理解任务并执行与以监督方式训练的最 先进模型相当或甚至更好的任务。
下面将介绍这些模型的发展历程,并了解它们在近两年的时间里是如何演变的。我们从目标和概念、使用的数据集、模型架构和实现细节以及性能评估4个方面介绍。
GPT-1使用BooksCorpus数据集来训练语言模型。BooksCorpus有大约7000本未出版的书,这些书有助于根据未发现的数据训练语言模型。该数据不太可能在下游任务的测试集中找到。此外,这个语料库有大量的连续文本,这有助于模型学习大范围的依赖关系。
模型架构和实现细节
GPT-1使用了12层仅解码器的转换器结构,并对训练语言模型进行了自我关注。模型的架构在很大程度上与转换器的原始工作中描述的相同。掩蔽有助于实现语言模型目标,其中语言模型不能访问当前单词右侧的后续单词。
以下是实施细节:
a.对于无监督培训:
•使用了具有 40,000 个合并的字节对编码 (BPE) 词汇表。
GPT-1在12项任务中的9项中的表现优于专门训练的受监督的最 先进模型。
该模型的另一个重要成就是其在各种任务上的零样本性能。由于预训练,该模型在不同的NLP任务(如问题回答、模式解决、情绪分析等)上的零样本性能有所改进。
GPT-1证明语言模型是一个有效的预训练目标,可以帮助模型很好地推广。该体系结构促进了迁移学习,并且可以执行各种NLP任务,只需很少的微调。该模型显示了生成性预训练的力量,并为其他模型开辟了道路,这些模型可以通过更大的数据集和更多的参数更好地释放这种潜力。
GPT-2模型的发展主要是在使用更大的数据集和向模型中添加更多参数以学习更强大的语言模型方面。让我们看看GPT-2模型的重大发展以及概念:
GPT-2 在阅读、理解、总结、翻译、问答等下游任务的多个数据集上进行了评估。让我们详细了解其中一些任务以及 GPT-2 在这些任务上的表现:
•GPT-2 在零样本设置中改进了 8 个语言建模数据集中的 7 个的现有技术水平。
•儿童读物数据集评估语言模型在名词、介词、命名实体等词类上的表现。GPT-2 将普通名词和命名实体识别的最 先进准确度提高了约 7%。
•LAMBADA数据集评估模型在识别长程依赖和预测句子最后一个词方面的性能。GPT-2 将困惑度从 99.8 降低到 8.6,并显着提高了准确性。
•GPT-2 在零样本设置的阅读理解任务中优于 4 个基线模型中的 3 个。
•在法语到英语的翻译任务中,GPT-2 在零样本设置中的表现优于大多数无监督模型,但并未优于最 先进的无监督模型。
•GPT-2 在文本摘要方面表现不佳,其性能与为摘要训练的经典模型相似或更差。
•GPT-2 能够在零样本测试的 8 个语言建模数据集中的 7 个上取得最 先进的结果。
GPT-2 表明,在更大的数据集和更多参数上进行训练提高了语言模型理解任务的能力,并超越了零样本设置中许多任务的最新技术水平。随着模型容量的增加,性能以对数线性方式增加。此外,语言模型的困惑度下降并没有出现饱和,而是随着参数数量的增加而持续下降。事实上,GPT-2对WebText数据集的拟合不足,更多时间的训练可能会进一步降低困惑度。这表明 GPT-2 的模型大小不是限制,构建更大的语言模型将减少困惑并使语言模型更好地理解自然语言。
GPT-3 语言模型是少样本学习者(GPT-3):
GPT-3 在大量语言建模和 NLP 数据集上进行了评估。对于 LAMBADA 和 Penn Tree Bank 等语言建模数据集,GPT-3 在少量或零样本设置中的表现优于现有技术。对于其他数据集,它无法击败最 先进的技术,但提高了零样本最 先进的性能。GPT-3 在 NLP 任务中也表现相当不错,如闭卷问答、模式解析、翻译等,经常击败最 先进的或与微调模型相当的表现。对于大多数任务,模型在少样本设置中的表现优于单样本和零样本设置。
除了在常规 NLP 任务上评估模型外,该模型还在算术加法、单词解读、新闻文章生成、学习和使用新词等综合任务上进行了评估。对于这些任务,性能也随着数量的增加而提高参数和模型在少样本设置中的表现优于单样本和零样本。
除了这些限制外,GPT-3 还存在滥用其类人文本生成能力进行网络钓鱼、垃圾邮件、传播错误信息或执行其他欺诈活动的潜在风险。此外,GPT-3 生成的文本具有其训练语言的偏见。GPT-3 生成的文章可能具有性别、民族、种族或宗教偏见。因此,谨慎使用此类模型并在使用前监控它们生成的文本变得极其重要。
GPT-4 有望比 GPT-3 实现巨大的性能飞跃,包括改进模仿人类行为和速度模式的文本生成。GPT-4 能够以更通用和适应性更强的方式处理语言翻译、文本摘要和其他任务。通过它训练的软件将能够更准确地推断用户的意图,即使人为错误干扰了指令。
据推测,GPT-4 仅略大于 GPT-3。较新的模型消除了这样一种误解,即变得更好的唯一方法是通过更多地依赖机器学习参数而不是大小来变得更强大。虽然它仍将比大多数上一代神经网络大,但它的大小与其性能的相关性并不大。
一些最新的语言软件解决方案实现了难以置信的密集模型,其大小达到了 GPT-3 的三倍以上。然而,规模本身并不一定能转化为更高的性能水平。相反,较小的模型似乎是训练数字智能的最有效方式。它们不仅性能得到提升,而且还可以降低计算成本、碳足迹和进入壁垒。
辅助学习目标是与主要学习目标一起学习的附加训练目标或任务,通过使模型更通用来提高模型的性能。
掩蔽指的是用其他虚拟标记移除或替换句子中的单词,从而使模型在训练时无法访问这些单词。
字节对编码是一种数据压缩技术,其中频繁出现的连续字节对被替换为数据中不存在的字节来压缩数据。为了重建原始数据,使用包含替换字节映射的表。
(编辑:莱芜站长网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|