序
当你读到这里时,一件神奇的事情正在悄无声息地发生:我在2021年11月产生的这些想法,通过黑色字迹经由你的眼睛穿过你的大脑皮层,转换为文字、概念和情感,成功地侵入了你的大脑。很有可能它们暂时没有引起你的注意,但仍在这个高度竞争的环境中扎下了根,很可能在你与他人分享这些想法时,它们就会“破土”而出。感谢语言的存在,让思想成为经空气传播的高传染性的“脑部病菌”,一旦染上就无药可救。
所幸,大多数“脑部病菌”是无害的,并且有一些对我们大有裨益。事实上,人类的“脑部病菌”构成了我们最宝贵的两个财富:知识与文化。就像肠道进行消化需要益生菌一样,没有这些对我们有益的“脑部病菌”,我们就很难进行思考。你的大部分思想其实都不是你自身产生的:这些思想在“传染”你之前,它们已经在其他人的大脑中产生、成长、进化。所以,如果我们想造出智能机器,就必须要找到一种方法把人类的思想“传染”给它们。
好消息是,另一件神奇的事情在过去几年也一直在发生着:深度学习的突破性进展催生出了强大的语言模型。在你阅读本书之前,你可能已经感受过语言模型的奇妙,比如GPT-3,只需要输入一段简短的提示语,比如“写一个青蛙遇到鳄鱼的故事”,它就能写出完整的故事。尽管它与莎士比亚写的作品还有明显的差距,但读起来确实很难让人相信这是由人工神经网络编写的。其实我在行文时借助了GitHub的Copilot,你能分辨哪些内容是我写的吗?
目前,这场人工智能革命已不仅局限于文本生成,它涵盖了自然语言处理(NLP)整个领域,从文本分类到摘要、翻译、问答、聊天机器人、自然语言理解(NLU)等。只要有语言、语音或文字,就存在NLP的用武之地。在生活中,我们已经可以向手机询问明天的天气情况,或通过与虚拟助手对话来解决问题,还可以通过搜索引擎查到想要的结果。但这项技术是如此的新,最好的可能还没有到来。
正如大多数的科技进步,这场NLP的革命是数百名无名英雄默默无闻努力工作的结果,其中有三大关键因素:
●Transformer是2017年Google发表的一篇名为“Attention Is All You Need”(https://arxiv.org/abs/1706.03762)的开创性论文中提出的神经网络架构。只用了短短几年时间,Transformer就颠覆了此前RNN的循环结构与CNN的卷积结构,占领了技术的制高点。Transformer架构在处理长序列数据和大型数据集方面表现得非常出色,以至于它的用途已不仅仅局限于NLP领域,像图像处理等领域也有大量的应用。
●在大多数项目中,很难使用一个大型数据集来从头开始训练一个模型。在实际工作中,更常用的做法是直接下载一个在通用数据集上预训练过的模型,然后在自己的(更小的)数据集上进行微调。自从2010年以来,使用预训练模型是图像处理领域的主流方式,但在NLP领域,该方式仅限于与上下文无关的词嵌入(单个词汇的密集向量表示)。比如,“bear”这个词在“teddy bear”和“to bear”中有相同的预训练嵌入。不过随即在2018年的几篇论文中提出的语言模型就解决了这个问题,将预训练与微调变得更加通用,这完全改变了游戏规则。
●Hugging Face提供的模型仓库从某种意义上来说也间接改变了游戏规则。早期,预训练模型在训练完后并没有被统一管理起来,因此想要获得一个可用的预训练模型并不容易。墨菲定律告诉我们,总会有一些PyTorch用户只能找到适用于TensorFlow而不能用于PyTorch的模型,反之亦然。在获得一个预训练模型后,找到对其做微调的方式并不是件容易的事。而Hugging Face的Transformers库就肩负着这样的使命,它完全开源,并同时支持PyTorch和TensorFlow,我们只需要从Hugging Face Hub下载一个预训练模型,根据任务进行配置、微调,并进行评估。此库的用户数正在迅速增长,截至2021年第四季度,已有5000多个组织使用,且每个月使用p i p方式安装的次数超过400万。此外,Hugging Face Transformers库的生态系统正逐渐蔓延到NLP领域之外,也可以将其用于图像处理。最后,还可以从Hugging Face Hub下载数据集来训练或评估微调的模型。
想了解更多内容,请阅读本书。本书由Hugging Face的开源开发者所撰写,作者包括了Hugging Face Transformers库的创建者。本书具备一定的广度和深度,因此受众群体广泛。它涵盖了Transformer架构本身的知识点,以及围绕它的整个生态系统。读者可使用Jupyter notebook跟进每个案例,一步一步地构建起模型。本书作者在训练大型Transformer模型方面经验丰富,书中提供了大量的提示与技巧,并尽可能地让内容通俗易懂。
总之,如果你对NLP领域具有浓厚兴趣,想要获知目前最先进的NLP产品的原理以及训练方式,那么本书一定值得阅读。千言万语,尽在书中。
Aurélien Géron
2021年11月于新西兰奥克兰