LLM basic

date

Aug 20, 2025

slug

llm-basic

status

Published

基础分层

LLM 扩展空间关键词

第一部分：基础层 - 核心架构与训练范式 (Foundation Layer - Core Architecture & Training Paradigm)

1.1 Transformer 蓝图 (Transformer Blueprint)

Transformer
Attention Is All You Need
Encoder-Decoder
auto-regressive
Multi-Head Self-Attention
Feed-Forward Network (FFN)
Residual Connections
Layer Normalization
Self-Attention
Query (Q), Key (K), Value (V)
Dot Product
Scaling
Softmax
Multi-Head Attention
Masking

1.2 从文本到张量 (From Text to Tensor)

Tokenization
Subword
Byte-Pair Encoding (BPE)
WordPiece
SentencePiece
Embeddings
Word Embedding
Positional Encoding
Learned Positional Embeddings
Relative Position Embeddings
Rotary Position Embeddings (RoPE)

1.3 奠定基础：预训练与对齐 (Foundation: Pre-training & Alignment)

Pre-training
Alignment
Self-supervision
Causal Language Modeling (CLM)
Masked Language Modeling (MLM)
Supervised Fine-Tuning (SFT)
Instruction Tuning
Reinforcement Learning from Human Feedback (RLHF)
Reward Model
Proximal Policy Optimization (PPO)
Direct Preference Optimization (DPO)

第二部分：扩展与效率层 - 为增长而生的架构 (Expansion & Efficiency Layer - Architectures for Growth)

2.1 超越密集：混合专家模型 (Beyond Dense: Mixture-of-Experts - MoE)

Dense model
Mixture-of-Experts (MoE)
Sparse Activation
Gating Network / Router
Top-k
Load Balancing
Super Experts

2.2 后 Transformer 时代的竞争者：状态空间模型 (Post-Transformer Era: State Space Models - Mamba)

State Space Models (SSMs)
Mamba
linear time complexity
Selection Mechanism
Hardware-aware Design
dense up
sparse up
efficient through

2.3 范式的实用化：面向部署的模型优化 (Practicalization: Optimization for Deployment)

Quantization
Post-Training Quantization (PTQ)
Quantization-Aware Training (QAT)
Pruning / Sparsity
Unstructured Pruning
Structured Pruning
Wanda
Knowledge Distillation
QLoRA

第三部分：能力层 - 从预测到行动的进化 (Capability Layer - Evolution from Prediction to Action)

3.1 机器中的幽灵：涌现能力与规模之争 (Ghost in the Machine: Emergent Abilities & The Scale Debate)

Emergent Abilities
In-context Learning
Mirage
Phase Transitions
Implicit Meta-learning

3.2 超越文本：向多模态智能的架构转变 (Beyond Text: The Shift to Multimodal Intelligence)

Multimodal Large Language Models (MLLMs)
Modality Encoders
Vision Transformer (ViT)
Connector / Aligner
Cross-Attention
Q-Former
LLM Backbone

3.3 从生成到执行：作为工具使用者的 LLM 智能体 (From Generation to Execution: LLM Agents as Tool Users)

Tools
LLM Agents
Function Calling
ReAct (Reasoning and Acting)
Thought -> Action -> Observation
Chain-of-Thought

第四部分：应用层 - 当前生态与未来影响 (Application Layer - Current Ecosystem & Future Impact)

4.1 变革企业：功能性应用概览 (Transforming the Enterprise: Functional Applications)

Conversational Analytics
Agent Assist
Automated Content Creation
Document Processing
Financial Analysis
Legal Research
Drug Discovery
Supply Chain Management

4.2 颠覆开发：编码员的新工具箱 (Disrupting Development: The Coder's New Toolbox)

Code Generation
Test Generation
Code Analysis & Remediation
Auto-Documentation
Code Search & Understanding
LLMOps
LangChain
LlamaIndex

第五部分：扩展空间 - 前沿、挑战与战略展望 (Expansion Space - Frontiers, Challenges & Strategic Outlook)

5.1 可靠性前沿：利用高级 RAG 对抗幻觉 (Reliability Frontier: Combating Hallucination with Advanced RAG)

Hallucination
Retrieval-Augmented Generation (RAG)
Long RAG
Agentic & Multimodal RAG
RAG for Memory

5.2 安全与对齐前沿：构建可信赖的 AI (Safety & Alignment Frontier: Building Trustworthy AI)

AI Alignment
Outer Alignment
Inner Alignment
Adversarial Prompting / Jailbreaking
Strategic Deception
Safety Content Filtering
Detoxification

5.3 可持续性前沿：智能的隐性成本 (Sustainability Frontier: The Hidden Costs of Intelligence)

Energy Consumption
Water Consumption
Hardware Lifecycle
Green Computing

5.4 终身学习前沿：逃离静态世界观 (Lifelong Learning Frontier: Escaping the Static Worldview)

Catastrophic Forgetting
Continual Learning
Stability-Plasticity Tradeoff
Rehearsal
Elastic Weight Consolidation (EWC)
Self-Synthesized Rehearsal

LLM 扩展空间框架图 (LLM Expansion Space Framework Diagram)

+----------------------------------------------------------------------+

| 第五部分：前沿扩展空间 (Frontier Layer) |
|----------------------------------------------------------------------|
| - 可靠性 (Reliability): RAG, Hallucination |
| - 安全性 (Safety): AI Alignment, Jailbreaking |
| - 可持续性 (Sustainability): Energy Consumption, Green Computing |
| - 终身学习 (Lifelong Learning): Catastrophic Forgetting |
+----------------------------------------------------------------------+
                                  ^
|
+----------------------------------------------------------------------+

| 第四部分：应用层 (Application Layer) |
|----------------------------------------------------------------------|
| - 企业应用 (Enterprise): Customer Service, Finance, Healthcare |
| - 开发者工具 (Developer Tools): Code Generation, LLMOps |
+----------------------------------------------------------------------+
                                  ^
|
+----------------------------------------------------------------------+

| 第三部分：能力层 (Capability Layer) |
|----------------------------------------------------------------------|
| - 涌现能力 (Emergent Abilities): In-context Learning |
| - 多模态智能 (Multimodal): MLLMs, Vision Transformer (ViT) |
| - 智能体 (Agents): Tool Use, Function Calling, ReAct |
+----------------------------------------------------------------------+
                                  ^
|
+----------------------------------------------------------------------+

| 第二部分：扩展与效率层 (Expansion & Efficiency Layer) |
|----------------------------------------------------------------------|
| - 混合专家 (MoE): Sparse Activation, Router |
| - 状态空间模型 (SSM / Mamba): Linear Complexity |
| - 模型优化 (Optimization): Quantization, Pruning, Distillation |
+----------------------------------------------------------------------+
                                  ^
|
+----------------------------------------------------------------------+

| 第一部分：基础层 (Foundation Layer) |
|----------------------------------------------------------------------|
| - 核心架构 (Core Architecture): Transformer, Self-Attention |
| - 数据表示 (Representation): Tokenization, Embeddings, Positional Encoding |
| - 训练范式 (Training): Pre-training, Alignment (SFT, RLHF, DPO) |
+----------------------------------------------------------------------+

相关关键词

第一部分：基础层 - 核心架构与训练范式

核心技术 (英文原文)	概述
Transformer	现代LLM的核心架构，于2017年在论文《Attention Is All You Need》中提出。它完全依赖于注意力机制，摒弃了传统的RNN和CNN，从而实现了大规模并行计算，为超大规模模型的训练铺平了道路。
Attention / Self-Attention	Transformer架构中最核心的创新机制。它通过计算序列中每个词元与其他所有词元之间的重要性得分，动态地构建语境表示，从而使模型能够理解长距离的依赖关系。其工作原理被描述为将查询（Query）、键（Key）和值（Value）映射到输出。
Multi-Head Self-Attention	自注意力机制的扩展。它并行运行多个独立的注意力计算（“头”），每个头学习关注输入序列的不同方面（如句法或语义关联）。这种设计使模型能够捕捉更丰富、更复杂的模式。
Encoder-Decoder	Transformer遵循的一种范式。编码器（Encoder）负责处理输入序列并生成一个富含语义的中间表示，解码器（Decoder）则接收此表示并逐个生成输出序列。
Auto-regressive	一种序列生成方式，特指解码器在生成当前词元时，会参考所有先前已生成的词元。这是确保输出文本连贯性的关键。
Tokenization	将连续的文本字符串分解成离散单元（词元/Tokens）的预处理步骤，是机器理解语言的第一步。
Subword Tokenization	一类先进的分词算法，如BPE、WordPiece和SentencePiece。它们通过将频繁出现的字符序列合并为“子词”，在控制词汇表大小的同时，有效解决了未知词（OOV）问题。
Embeddings	将离散的词元转换为高维、稠密的数字向量的过程。这些向量在连续的向量空间中捕捉了词元的语义含义，语义相近的词元其向量也更接近。
Positional Encoding	一种向模型输入中注入序列顺序信息的技术。由于Transformer架构本身无法感知词元的顺序，必须通过位置编码来弥补这一缺陷。RoPE (Rotary Position Embeddings) 是其中一种先进的形式。
Pre-training	LLM训练的第一个阶段，计算和数据成本最高。模型在海量的无标签文本数据上通过自监督学习（如CLM或MLM）来学习广泛的世界知识和语言规律。
Alignment	LLM训练的第二个阶段，旨在通过在高质量的特定数据集上进行微调，塑造模型的行为，使其能够遵循人类指令并以有用、无害、诚实的方式进行交互。
Causal Language Modeling (CLM)	一种预训练目标，模型被训练来预测序列中的下一个词元。主要用于自回归模型（如GPT系列），使其具备强大的文本生成能力。
Masked Language Modeling (MLM)	另一种预训练目标，模型被训练来预测输入序列中被随机遮盖（mask）的词元。主要用于双向模型（如BERT系列），使其能学习到更深刻的语境理解能力。
Supervised Fine-Tuning (SFT) / Instruction Tuning	对齐的第一步。模型在一个由“指令-响应”对构成的数据集上进行微调，从而学会遵循人类的指令并执行特定任务。
Reinforcement Learning from Human Feedback (RLHF)	一种先进的对齐技术。首先训练一个奖励模型（Reward Model）来学习人类的偏好，然后使用强化学习算法（如PPO）根据该奖励模型来微调LLM，使其输出更符合人类细微的偏好。
Direct Preference Optimization (DPO)	RLHF的一种更简洁、更稳定的替代方案。它绕过了独立的奖励模型和强化学习过程，直接利用人类偏好数据，通过一个简单的分类损失函数来直接优化LLM的策略。

第二部分：扩展与效率层 - 为增长而生的架构

核心技术 (英文原文)	概述
Mixture-of-Experts (MoE)	一种旨在提升模型效率和扩展性的架构。它将模型中的某些层替换为由多个并行的“专家”网络和一个“门控网络”（Router）组成。对于每个输入词元，门控网络只选择激活一小部分专家进行计算，从而在拥有海量总参数的同时，保持较低的单次计算成本。
State Space Models (SSMs) / Mamba	一种为解决Transformer在处理超长序列时效率低下（$O(n^2)$复杂度）而设计的替代架构。SSM通过一个“隐藏状态”来处理序列，具有线性时间复杂度（O(n)）。Mamba是SSM的代表，通过选择性机制和硬件感知设计，实现了与Transformer相媲美的性能和更高的效率。
Quantization	一种模型优化技术，通过降低模型权重和激活值的数值精度（如从FP32降至INT8），来显著减小模型尺寸、降低内存占用并提升推理速度。
Pruning / Sparsity	一种模型优化技术，其基本假设是大型模型中存在大量冗余参数。通过移除（剪枝）这些不重要的参数来减小模型尺寸和计算量，引入稀疏性。
Knowledge Distillation	一种模型压缩技术。通过训练一个小型、高效的“学生”模型，去模仿一个大型、强大的“教师”模型的行为（特别是其输出的完整概率分布），从而将“知识”迁移给学生模型，使其在参数量远小于教师的情况下达到优异性能。

第三部分：能力层 - 从预测到行动的进化

核心技术 (英文原文)	概述
Emergent Abilities	指在小型模型中不存在，但在模型规模跨越某个临界点后，性能会突然、非线性地急剧提升的能力。例如多步算术运算和上下文学习。关于其是否为真实现象存在学术争议。
In-context Learning	LLM的一项涌现能力，指模型无需更新权重，仅通过在提示（Prompt）中给出几个示例，就能学会并执行一个新任务。
Multimodal Large Language Models (MLLMs)	能够整合并协同处理来自不同数据类型（如文本、图像、音频）信息的大型语言模型。其架构通常包括模态编码器、连接器和LLM主干，旨在实现更全面、更富语境的智能。
LLM Agents	一种新的应用范式，将LLM从一个被动的“信息生成器”转变为一个主动的“任务执行者”。智能体能够使用外部工具，与真实世界的数据和服务进行交互，以完成复杂的任务。
Function Calling / Tool Use	LLM智能体的基础能力。模型能够分析用户请求，并判断是否需要借助外部工具。如果需要，它会生成一个结构化的API调用指令（如JSON对象），交由外部程序执行，从而获取实时或外部信息。
ReAct (Reasoning and Acting)	一种先进的智能体框架，它将LLM的推理（Reasoning）和行动（Acting）能力协同起来。通过一个迭代的“思考 -> 行动 -> 观察”循环，智能体能够分解并解决复杂的多步骤任务。

第四部分 & 第五部分：应用与前沿

核心技术 (英文原文)	概述
Conversational Analytics	一种企业应用，利用LLM大规模分析客户反馈（如电话录音、评论），自动识别情绪、关键主题和趋势，以优化客户体验。
Agent Assist	一种企业应用，LLM作为辅助工具，为人类客服代表提供实时信息检索、任务自动化和产品推荐，以提升服务质量和效率。
LLMOps	围绕LLM应用开发、部署和维护的一套全新的运维理念和工具链，类似于软件开发领域的DevOps。LangChain和LlamaIndex是代表性框架。
Hallucination	LLM的一个根本性缺陷，指模型会生成看似合理但实际上是错误的、捏造的或与事实不符的内容。这是提升模型可靠性的主要障碍。
Retrieval-Augmented Generation (RAG)	对抗幻觉的主流技术范式。在生成答案前，模型首先从一个外部可信的知识库中检索相关信息，并将其作为上下文，以生成基于事实的、可验证的回答。
AI Alignment	一个至关重要的研究领域，旨在确保AI系统的行为安全、可控，并与人类的价值观和意图保持一致。
Jailbreaking	一种对抗性提示（Adversarial Prompting）攻击，恶意用户通过精心设计的提示，诱导模型绕过其安全护栏，生成有害或被禁止的内容。
Catastrophic Forgetting	持续学习中的一个核心难题。当一个已训练好的模型学习新任务时，它会覆盖或破坏掉用于存储旧任务知识的权重，导致其在旧任务上的性能急剧下降。
Continual Learning	指让AI模型能够像人类一样，持续不断地从新数据中学习新知识和技能，同时不忘记已经学过的内容。解决“灾难性遗忘”是实现该能力的关键。

REFER: Gemini 2.5