中文搜索引擎指南网
标题:
大语言模型(LLM)到底怎么工作的?
[打印本页]
作者:
sowang
时间:
7 天前
标题:
大语言模型(LLM)到底怎么工作的?
大语言模型(LLM)的工作原理其实并不神秘。如果我们抛开复杂的数学公式,它的工作机制可以拆解为“大脑硬件”、“成长过程”和“答题步骤”三个层面来理解:
一、 大脑硬件:Transformer与注意力机制
大语言模型的核心架构被称为 Transformer。你可以把它想象成一个拥有超级阅读能力的“大脑”。它最核心的创新是“自注意力机制”。
传统的计算机程序阅读文本是从左到右逐字进行的,而 Transformer 能够同时分析句子中的所有词汇,并瞬间确定它们彼此之间的关联。例如,当处理“那只大声吠叫的狗吵醒了邻居”这句话时,它能立刻将“吠叫”和“大声”与“狗”关联起来。这种机制让模型在处理长文本和复杂对话时,能保持极高的连贯性和上下文理解力。
二、 成长过程:从“野生学霸”到“人类助手”
大模型的诞生通常需要经过三个关键阶段的“培养”:
预训练(海量阅读):模型会阅读互联网上数千亿甚至上万亿的文本(包括书籍、网页、代码等)。在这个阶段,它通过不断预测“下一个词是什么”来进行自监督学习,从而掌握了人类语言的语法规则、逻辑结构以及海量的世界知识。
指令微调(学习规矩):预训练后的模型虽然知识渊博,但不知道如何与人交流。工程师会使用数万条人工编写的“指令-回答”对数据进行微调,教它听懂人类的指令(如“请总结这段话”),并学会以对话的形式提供帮助。
人类反馈强化学习(RLHF,价值观对齐):为了让模型的回答更符合人类的期望,人类评估员会对模型生成的不同回答进行打分和排序。模型会根据这些反馈不断优化,从而学会提供诚实、安全、有用且符合人类价值观的回答。
三、 答题步骤:它是如何生成回复的?
当你向大模型发送一条消息时,它的内部会经历以下流水线般的处理过程:
分词(Tokenizer):模型首先会将你的自然语言拆解成计算机能理解的数字单元(称为 Token)。比如,“Hello world”可能会被切分为特定的数字代码。
概率预测与生成:模型的大脑(Transformer)会结合你的问题和上下文,计算所有潜在后续词汇的概率。它每次只输出一个概率最高的词(Token)。
循环推理:模型会将刚刚生成的词重新加入到上下文中,再次计算下一个词的概率。这个“预测-生成-再预测”的过程会不断重复,直到生成完整的句子或触发结束符号。
简而言之,大语言模型并不是预先“知道”最终答案,而是运用它在预训练阶段学到的海量统计关联,像玩高级文字接龙一样,每次做出最合理的猜测,最终逐字拼凑出流畅的回答。
欢迎光临 中文搜索引擎指南网 (http://www.sowang.com/bbs/)
Powered by Discuz! X3.2