LLM basic
date
Aug 20, 2025
slug
llm-basic
status
Published
tags
LLM
AI
summary
type
Post
Tag
基础分层
LLM 扩展空间关键词
- 第一部分:基础层 - 核心架构与训练范式 (Foundation Layer - Core Architecture & Training Paradigm)
- 1.1 Transformer 蓝图 (Transformer Blueprint)
Transformer
Attention Is All You Need
Encoder-Decoder
auto-regressive
Multi-Head Self-Attention
Feed-Forward Network (FFN)
Residual Connections
Layer Normalization
Self-Attention
Query (Q), Key (K), Value (V)
Dot Product
Scaling
Softmax
Multi-Head Attention
Masking
- 1.2 从文本到张量 (From Text to Tensor)
Tokenization
Subword
Byte-Pair Encoding (BPE)
WordPiece
SentencePiece
Embeddings
Word Embedding
Positional Encoding
Learned Positional Embeddings
Relative Position Embeddings
Rotary Position Embeddings (RoPE)
- 1.3 奠定基础:预训练与对齐 (Foundation: Pre-training & Alignment)
Pre-training
Alignment
Self-supervision
Causal Language Modeling (CLM)
Masked Language Modeling (MLM)
Supervised Fine-Tuning (SFT)
Instruction Tuning
Reinforcement Learning from Human Feedback (RLHF)
Reward Model
Proximal Policy Optimization (PPO)
Direct Preference Optimization (DPO)
- 第二部分:扩展与效率层 - 为增长而生的架构 (Expansion & Efficiency Layer - Architectures for Growth)
- 2.1 超越密集:混合专家模型 (Beyond Dense: Mixture-of-Experts - MoE)
Dense model
Mixture-of-Experts (MoE)
Sparse Activation
Gating Network / Router
Top-k
Load Balancing
Super Experts
- 2.2 后 Transformer 时代的竞争者:状态空间模型 (Post-Transformer Era: State Space Models - Mamba)
State Space Models (SSMs)
Mamba
linear time complexity
Selection Mechanism
Hardware-aware Design
dense up
sparse up
efficient through
- 2.3 范式的实用化:面向部署的模型优化 (Practicalization: Optimization for Deployment)
Quantization
Post-Training Quantization (PTQ)
Quantization-Aware Training (QAT)
Pruning / Sparsity
Unstructured Pruning
Structured Pruning
Wanda
Knowledge Distillation
QLoRA
- 第三部分:能力层 - 从预测到行动的进化 (Capability Layer - Evolution from Prediction to Action)
- 3.1 机器中的幽灵:涌现能力与规模之争 (Ghost in the Machine: Emergent Abilities & The Scale Debate)
Emergent Abilities
In-context Learning
Mirage
Phase Transitions
Implicit Meta-learning
- 3.2 超越文本:向多模态智能的架构转变 (Beyond Text: The Shift to Multimodal Intelligence)
Multimodal Large Language Models (MLLMs)
Modality Encoders
Vision Transformer (ViT)
Connector / Aligner
Cross-Attention
Q-Former
LLM Backbone
- 3.3 从生成到执行:作为工具使用者的 LLM 智能体 (From Generation to Execution: LLM Agents as Tool Users)
Tools
LLM Agents
Function Calling
ReAct (Reasoning and Acting)
Thought -> Action -> Observation
Chain-of-Thought
- 第四部分:应用层 - 当前生态与未来影响 (Application Layer - Current Ecosystem & Future Impact)
- 4.1 变革企业:功能性应用概览 (Transforming the Enterprise: Functional Applications)
Conversational Analytics
Agent Assist
Automated Content Creation
Document Processing
Financial Analysis
Legal Research
Drug Discovery
Supply Chain Management
- 4.2 颠覆开发:编码员的新工具箱 (Disrupting Development: The Coder's New Toolbox)
Code Generation
Test Generation
Code Analysis & Remediation
Auto-Documentation
Code Search & Understanding
LLMOps
LangChain
LlamaIndex
- 第五部分:扩展空间 - 前沿、挑战与战略展望 (Expansion Space - Frontiers, Challenges & Strategic Outlook)
- 5.1 可靠性前沿:利用高级 RAG 对抗幻觉 (Reliability Frontier: Combating Hallucination with Advanced RAG)
Hallucination
Retrieval-Augmented Generation (RAG)
Long RAG
Agentic & Multimodal RAG
RAG for Memory
- 5.2 安全与对齐前沿:构建可信赖的 AI (Safety & Alignment Frontier: Building Trustworthy AI)
AI Alignment
Outer Alignment
Inner Alignment
Adversarial Prompting / Jailbreaking
Strategic Deception
Safety Content Filtering
Detoxification
- 5.3 可持续性前沿:智能的隐性成本 (Sustainability Frontier: The Hidden Costs of Intelligence)
Energy Consumption
Water Consumption
Hardware Lifecycle
Green Computing
- 5.4 终身学习前沿:逃离静态世界观 (Lifelong Learning Frontier: Escaping the Static Worldview)
Catastrophic Forgetting
Continual Learning
Stability-Plasticity Tradeoff
Rehearsal
Elastic Weight Consolidation (EWC)
Self-Synthesized Rehearsal
LLM 扩展空间框架图 (LLM Expansion Space Framework Diagram)
+----------------------------------------------------------------------+
| 第五部分:前沿扩展空间 (Frontier Layer) |
|----------------------------------------------------------------------|
| - 可靠性 (Reliability): RAG, Hallucination |
| - 安全性 (Safety): AI Alignment, Jailbreaking |
| - 可持续性 (Sustainability): Energy Consumption, Green Computing |
| - 终身学习 (Lifelong Learning): Catastrophic Forgetting |
+----------------------------------------------------------------------+
^
|
+----------------------------------------------------------------------+
| 第四部分:应用层 (Application Layer) |
|----------------------------------------------------------------------|
| - 企业应用 (Enterprise): Customer Service, Finance, Healthcare |
| - 开发者工具 (Developer Tools): Code Generation, LLMOps |
+----------------------------------------------------------------------+
^
|
+----------------------------------------------------------------------+
| 第三部分:能力层 (Capability Layer) |
|----------------------------------------------------------------------|
| - 涌现能力 (Emergent Abilities): In-context Learning |
| - 多模态智能 (Multimodal): MLLMs, Vision Transformer (ViT) |
| - 智能体 (Agents): Tool Use, Function Calling, ReAct |
+----------------------------------------------------------------------+
^
|
+----------------------------------------------------------------------+
| 第二部分:扩展与效率层 (Expansion & Efficiency Layer) |
|----------------------------------------------------------------------|
| - 混合专家 (MoE): Sparse Activation, Router |
| - 状态空间模型 (SSM / Mamba): Linear Complexity |
| - 模型优化 (Optimization): Quantization, Pruning, Distillation |
+----------------------------------------------------------------------+
^
|
+----------------------------------------------------------------------+
| 第一部分:基础层 (Foundation Layer) |
|----------------------------------------------------------------------|
| - 核心架构 (Core Architecture): Transformer, Self-Attention |
| - 数据表示 (Representation): Tokenization, Embeddings, Positional Encoding |
| - 训练范式 (Training): Pre-training, Alignment (SFT, RLHF, DPO) |
+----------------------------------------------------------------------+
相关关键词
第一部分:基础层 - 核心架构与训练范式
核心技术 (英文原文) | 概述 |
Transformer | 现代LLM的核心架构,于2017年在论文《Attention Is All You Need》中提出。它完全依赖于注意力机制,摒弃了传统的RNN和CNN,从而实现了大规模并行计算,为超大规模模型的训练铺平了道路。 |
Attention / Self-Attention | Transformer架构中最核心的创新机制。它通过计算序列中每个词元与其他所有词元之间的重要性得分,动态地构建语境表示,从而使模型能够理解长距离的依赖关系。其工作原理被描述为将查询(Query)、键(Key)和值(Value)映射到输出。 |
Multi-Head Self-Attention | 自注意力机制的扩展。它并行运行多个独立的注意力计算(“头”),每个头学习关注输入序列的不同方面(如句法或语义关联)。这种设计使模型能够捕捉更丰富、更复杂的模式。 |
Encoder-Decoder | Transformer遵循的一种范式。编码器(Encoder)负责处理输入序列并生成一个富含语义的中间表示,解码器(Decoder)则接收此表示并逐个生成输出序列。 |
Auto-regressive | 一种序列生成方式,特指解码器在生成当前词元时,会参考所有先前已生成的词元。这是确保输出文本连贯性的关键。 |
Tokenization | 将连续的文本字符串分解成离散单元(词元/Tokens)的预处理步骤,是机器理解语言的第一步。 |
Subword Tokenization | 一类先进的分词算法,如BPE、WordPiece和SentencePiece。它们通过将频繁出现的字符序列合并为“子词”,在控制词汇表大小的同时,有效解决了未知词(OOV)问题。 |
Embeddings | 将离散的词元转换为高维、稠密的数字向量的过程。这些向量在连续的向量空间中捕捉了词元的语义含义,语义相近的词元其向量也更接近。 |
Positional Encoding | 一种向模型输入中注入序列顺序信息的技术。由于Transformer架构本身无法感知词元的顺序,必须通过位置编码来弥补这一缺陷。RoPE (Rotary Position Embeddings) 是其中一种先进的形式。 |
Pre-training | LLM训练的第一个阶段,计算和数据成本最高。模型在海量的无标签文本数据上通过自监督学习(如CLM或MLM)来学习广泛的世界知识和语言规律。 |
Alignment | LLM训练的第二个阶段,旨在通过在高质量的特定数据集上进行微调,塑造模型的行为,使其能够遵循人类指令并以有用、无害、诚实的方式进行交互。 |
Causal Language Modeling (CLM) | 一种预训练目标,模型被训练来预测序列中的下一个词元。主要用于自回归模型(如GPT系列),使其具备强大的文本生成能力。 |
Masked Language Modeling (MLM) | 另一种预训练目标,模型被训练来预测输入序列中被随机遮盖(mask)的词元。主要用于双向模型(如BERT系列),使其能学习到更深刻的语境理解能力。 |
Supervised Fine-Tuning (SFT) / Instruction Tuning | 对齐的第一步。模型在一个由“指令-响应”对构成的数据集上进行微调,从而学会遵循人类的指令并执行特定任务。 |
Reinforcement Learning from Human Feedback (RLHF) | 一种先进的对齐技术。首先训练一个奖励模型(Reward Model)来学习人类的偏好,然后使用强化学习算法(如PPO)根据该奖励模型来微调LLM,使其输出更符合人类细微的偏好。 |
Direct Preference Optimization (DPO) | RLHF的一种更简洁、更稳定的替代方案。它绕过了独立的奖励模型和强化学习过程,直接利用人类偏好数据,通过一个简单的分类损失函数来直接优化LLM的策略。 |
第二部分:扩展与效率层 - 为增长而生的架构
核心技术 (英文原文) | 概述 |
Mixture-of-Experts (MoE) | 一种旨在提升模型效率和扩展性的架构。它将模型中的某些层替换为由多个并行的“专家”网络和一个“门控网络”(Router)组成。对于每个输入词元,门控网络只选择激活一小部分专家进行计算,从而在拥有海量总参数的同时,保持较低的单次计算成本。 |
State Space Models (SSMs) / Mamba | 一种为解决Transformer在处理超长序列时效率低下($O(n^2)$复杂度)而设计的替代架构。SSM通过一个“隐藏状态”来处理序列,具有线性时间复杂度(O(n))。Mamba是SSM的代表,通过选择性机制和硬件感知设计,实现了与Transformer相媲美的性能和更高的效率。 |
Quantization | 一种模型优化技术,通过降低模型权重和激活值的数值精度(如从FP32降至INT8),来显著减小模型尺寸、降低内存占用并提升推理速度。 |
Pruning / Sparsity | 一种模型优化技术,其基本假设是大型模型中存在大量冗余参数。通过移除(剪枝)这些不重要的参数来减小模型尺寸和计算量,引入稀疏性。 |
Knowledge Distillation | 一种模型压缩技术。通过训练一个小型、高效的“学生”模型,去模仿一个大型、强大的“教师”模型的行为(特别是其输出的完整概率分布),从而将“知识”迁移给学生模型,使其在参数量远小于教师的情况下达到优异性能。 |
第三部分:能力层 - 从预测到行动的进化
核心技术 (英文原文) | 概述 |
Emergent Abilities | 指在小型模型中不存在,但在模型规模跨越某个临界点后,性能会突然、非线性地急剧提升的能力。例如多步算术运算和上下文学习。关于其是否为真实现象存在学术争议。 |
In-context Learning | LLM的一项涌现能力,指模型无需更新权重,仅通过在提示(Prompt)中给出几个示例,就能学会并执行一个新任务。 |
Multimodal Large Language Models (MLLMs) | 能够整合并协同处理来自不同数据类型(如文本、图像、音频)信息的大型语言模型。其架构通常包括模态编码器、连接器和LLM主干,旨在实现更全面、更富语境的智能。 |
LLM Agents | 一种新的应用范式,将LLM从一个被动的“信息生成器”转变为一个主动的“任务执行者”。智能体能够使用外部工具,与真实世界的数据和服务进行交互,以完成复杂的任务。 |
Function Calling / Tool Use | LLM智能体的基础能力。模型能够分析用户请求,并判断是否需要借助外部工具。如果需要,它会生成一个结构化的API调用指令(如JSON对象),交由外部程序执行,从而获取实时或外部信息。 |
ReAct (Reasoning and Acting) | 一种先进的智能体框架,它将LLM的推理(Reasoning)和行动(Acting)能力协同起来。通过一个迭代的“思考 -> 行动 -> 观察”循环,智能体能够分解并解决复杂的多步骤任务。 |
第四部分 & 第五部分:应用与前沿
核心技术 (英文原文) | 概述 |
Conversational Analytics | 一种企业应用,利用LLM大规模分析客户反馈(如电话录音、评论),自动识别情绪、关键主题和趋势,以优化客户体验。 |
Agent Assist | 一种企业应用,LLM作为辅助工具,为人类客服代表提供实时信息检索、任务自动化和产品推荐,以提升服务质量和效率。 |
LLMOps | 围绕LLM应用开发、部署和维护的一套全新的运维理念和工具链,类似于软件开发领域的DevOps。LangChain和LlamaIndex是代表性框架。 |
Hallucination | LLM的一个根本性缺陷,指模型会生成看似合理但实际上是错误的、捏造的或与事实不符的内容。这是提升模型可靠性的主要障碍。 |
Retrieval-Augmented Generation (RAG) | 对抗幻觉的主流技术范式。在生成答案前,模型首先从一个外部可信的知识库中检索相关信息,并将其作为上下文,以生成基于事实的、可验证的回答。 |
AI Alignment | 一个至关重要的研究领域,旨在确保AI系统的行为安全、可控,并与人类的价值观和意图保持一致。 |
Jailbreaking | 一种对抗性提示(Adversarial Prompting)攻击,恶意用户通过精心设计的提示,诱导模型绕过其安全护栏,生成有害或被禁止的内容。 |
Catastrophic Forgetting | 持续学习中的一个核心难题。当一个已训练好的模型学习新任务时,它会覆盖或破坏掉用于存储旧任务知识的权重,导致其在旧任务上的性能急剧下降。 |
Continual Learning | 指让AI模型能够像人类一样,持续不断地从新数据中学习新知识和技能,同时不忘记已经学过的内容。解决“灾难性遗忘”是实现该能力的关键。 |
REFER: Gemini 2.5