LLM basic

date
Aug 20, 2025
slug
llm-basic
status
Published
tags
LLM
AI
summary
type
Post
Tag

基础分层

LLM 扩展空间关键词

  • 第一部分:基础层 - 核心架构与训练范式 (Foundation Layer - Core Architecture & Training Paradigm)
    • 1.1 Transformer 蓝图 (Transformer Blueprint)
      • Transformer
      • Attention Is All You Need
      • Encoder-Decoder
      • auto-regressive
      • Multi-Head Self-Attention
      • Feed-Forward Network (FFN)
      • Residual Connections
      • Layer Normalization
      • Self-Attention
      • Query (Q), Key (K), Value (V)
      • Dot Product
      • Scaling
      • Softmax
      • Multi-Head Attention
      • Masking
    • 1.2 从文本到张量 (From Text to Tensor)
      • Tokenization
      • Subword
      • Byte-Pair Encoding (BPE)
      • WordPiece
      • SentencePiece
      • Embeddings
      • Word Embedding
      • Positional Encoding
      • Learned Positional Embeddings
      • Relative Position Embeddings
      • Rotary Position Embeddings (RoPE)
    • 1.3 奠定基础:预训练与对齐 (Foundation: Pre-training & Alignment)
      • Pre-training
      • Alignment
      • Self-supervision
      • Causal Language Modeling (CLM)
      • Masked Language Modeling (MLM)
      • Supervised Fine-Tuning (SFT)
      • Instruction Tuning
      • Reinforcement Learning from Human Feedback (RLHF)
      • Reward Model
      • Proximal Policy Optimization (PPO)
      • Direct Preference Optimization (DPO)
  • 第二部分:扩展与效率层 - 为增长而生的架构 (Expansion & Efficiency Layer - Architectures for Growth)
    • 2.1 超越密集:混合专家模型 (Beyond Dense: Mixture-of-Experts - MoE)
      • Dense model
      • Mixture-of-Experts (MoE)
      • Sparse Activation
      • Gating Network / Router
      • Top-k
      • Load Balancing
      • Super Experts
    • 2.2 后 Transformer 时代的竞争者:状态空间模型 (Post-Transformer Era: State Space Models - Mamba)
      • State Space Models (SSMs)
      • Mamba
      • linear time complexity
      • Selection Mechanism
      • Hardware-aware Design
      • dense up
      • sparse up
      • efficient through
    • 2.3 范式的实用化:面向部署的模型优化 (Practicalization: Optimization for Deployment)
      • Quantization
      • Post-Training Quantization (PTQ)
      • Quantization-Aware Training (QAT)
      • Pruning / Sparsity
      • Unstructured Pruning
      • Structured Pruning
      • Wanda
      • Knowledge Distillation
      • QLoRA
  • 第三部分:能力层 - 从预测到行动的进化 (Capability Layer - Evolution from Prediction to Action)
    • 3.1 机器中的幽灵:涌现能力与规模之争 (Ghost in the Machine: Emergent Abilities & The Scale Debate)
      • Emergent Abilities
      • In-context Learning
      • Mirage
      • Phase Transitions
      • Implicit Meta-learning
    • 3.2 超越文本:向多模态智能的架构转变 (Beyond Text: The Shift to Multimodal Intelligence)
      • Multimodal Large Language Models (MLLMs)
      • Modality Encoders
      • Vision Transformer (ViT)
      • Connector / Aligner
      • Cross-Attention
      • Q-Former
      • LLM Backbone
    • 3.3 从生成到执行:作为工具使用者的 LLM 智能体 (From Generation to Execution: LLM Agents as Tool Users)
      • Tools
      • LLM Agents
      • Function Calling
      • ReAct (Reasoning and Acting)
      • Thought -> Action -> Observation
      • Chain-of-Thought
  • 第四部分:应用层 - 当前生态与未来影响 (Application Layer - Current Ecosystem & Future Impact)
    • 4.1 变革企业:功能性应用概览 (Transforming the Enterprise: Functional Applications)
      • Conversational Analytics
      • Agent Assist
      • Automated Content Creation
      • Document Processing
      • Financial Analysis
      • Legal Research
      • Drug Discovery
      • Supply Chain Management
    • 4.2 颠覆开发:编码员的新工具箱 (Disrupting Development: The Coder's New Toolbox)
      • Code Generation
      • Test Generation
      • Code Analysis & Remediation
      • Auto-Documentation
      • Code Search & Understanding
      • LLMOps
      • LangChain
      • LlamaIndex
  • 第五部分:扩展空间 - 前沿、挑战与战略展望 (Expansion Space - Frontiers, Challenges & Strategic Outlook)
    • 5.1 可靠性前沿:利用高级 RAG 对抗幻觉 (Reliability Frontier: Combating Hallucination with Advanced RAG)
      • Hallucination
      • Retrieval-Augmented Generation (RAG)
      • Long RAG
      • Agentic & Multimodal RAG
      • RAG for Memory
    • 5.2 安全与对齐前沿:构建可信赖的 AI (Safety & Alignment Frontier: Building Trustworthy AI)
      • AI Alignment
      • Outer Alignment
      • Inner Alignment
      • Adversarial Prompting / Jailbreaking
      • Strategic Deception
      • Safety Content Filtering
      • Detoxification
    • 5.3 可持续性前沿:智能的隐性成本 (Sustainability Frontier: The Hidden Costs of Intelligence)
      • Energy Consumption
      • Water Consumption
      • Hardware Lifecycle
      • Green Computing
    • 5.4 终身学习前沿:逃离静态世界观 (Lifelong Learning Frontier: Escaping the Static Worldview)
      • Catastrophic Forgetting
      • Continual Learning
      • Stability-Plasticity Tradeoff
      • Rehearsal
      • Elastic Weight Consolidation (EWC)
      • Self-Synthesized Rehearsal

LLM 扩展空间框架图 (LLM Expansion Space Framework Diagram)

+----------------------------------------------------------------------+

| 第五部分:前沿扩展空间 (Frontier Layer) |
|----------------------------------------------------------------------|
| - 可靠性 (Reliability): RAG, Hallucination |
| - 安全性 (Safety): AI Alignment, Jailbreaking |
| - 可持续性 (Sustainability): Energy Consumption, Green Computing |
| - 终身学习 (Lifelong Learning): Catastrophic Forgetting |
+----------------------------------------------------------------------+
                                  ^
|
+----------------------------------------------------------------------+

| 第四部分:应用层 (Application Layer) |
|----------------------------------------------------------------------|
| - 企业应用 (Enterprise): Customer Service, Finance, Healthcare |
| - 开发者工具 (Developer Tools): Code Generation, LLMOps |
+----------------------------------------------------------------------+
                                  ^
|
+----------------------------------------------------------------------+

| 第三部分:能力层 (Capability Layer) |
|----------------------------------------------------------------------|
| - 涌现能力 (Emergent Abilities): In-context Learning |
| - 多模态智能 (Multimodal): MLLMs, Vision Transformer (ViT) |
| - 智能体 (Agents): Tool Use, Function Calling, ReAct |
+----------------------------------------------------------------------+
                                  ^
|
+----------------------------------------------------------------------+

| 第二部分:扩展与效率层 (Expansion & Efficiency Layer) |
|----------------------------------------------------------------------|
| - 混合专家 (MoE): Sparse Activation, Router |
| - 状态空间模型 (SSM / Mamba): Linear Complexity |
| - 模型优化 (Optimization): Quantization, Pruning, Distillation |
+----------------------------------------------------------------------+
                                  ^
|
+----------------------------------------------------------------------+

| 第一部分:基础层 (Foundation Layer) |
|----------------------------------------------------------------------|
| - 核心架构 (Core Architecture): Transformer, Self-Attention |
| - 数据表示 (Representation): Tokenization, Embeddings, Positional Encoding |
| - 训练范式 (Training): Pre-training, Alignment (SFT, RLHF, DPO) |
+----------------------------------------------------------------------+
 
 

相关关键词


第一部分:基础层 - 核心架构与训练范式

核心技术 (英文原文)
概述
Transformer
现代LLM的核心架构,于2017年在论文《Attention Is All You Need》中提出。它完全依赖于注意力机制,摒弃了传统的RNN和CNN,从而实现了大规模并行计算,为超大规模模型的训练铺平了道路。
Attention / Self-Attention
Transformer架构中最核心的创新机制。它通过计算序列中每个词元与其他所有词元之间的重要性得分,动态地构建语境表示,从而使模型能够理解长距离的依赖关系。其工作原理被描述为将查询(Query)、键(Key)和值(Value)映射到输出。
Multi-Head Self-Attention
自注意力机制的扩展。它并行运行多个独立的注意力计算(“头”),每个头学习关注输入序列的不同方面(如句法或语义关联)。这种设计使模型能够捕捉更丰富、更复杂的模式。
Encoder-Decoder
Transformer遵循的一种范式。编码器(Encoder)负责处理输入序列并生成一个富含语义的中间表示,解码器(Decoder)则接收此表示并逐个生成输出序列。
Auto-regressive
一种序列生成方式,特指解码器在生成当前词元时,会参考所有先前已生成的词元。这是确保输出文本连贯性的关键。
Tokenization
将连续的文本字符串分解成离散单元(词元/Tokens)的预处理步骤,是机器理解语言的第一步。
Subword Tokenization
一类先进的分词算法,如BPE、WordPiece和SentencePiece。它们通过将频繁出现的字符序列合并为“子词”,在控制词汇表大小的同时,有效解决了未知词(OOV)问题。
Embeddings
将离散的词元转换为高维、稠密的数字向量的过程。这些向量在连续的向量空间中捕捉了词元的语义含义,语义相近的词元其向量也更接近。
Positional Encoding
一种向模型输入中注入序列顺序信息的技术。由于Transformer架构本身无法感知词元的顺序,必须通过位置编码来弥补这一缺陷。RoPE (Rotary Position Embeddings) 是其中一种先进的形式。
Pre-training
LLM训练的第一个阶段,计算和数据成本最高。模型在海量的无标签文本数据上通过自监督学习(如CLM或MLM)来学习广泛的世界知识和语言规律。
Alignment
LLM训练的第二个阶段,旨在通过在高质量的特定数据集上进行微调,塑造模型的行为,使其能够遵循人类指令并以有用、无害、诚实的方式进行交互。
Causal Language Modeling (CLM)
一种预训练目标,模型被训练来预测序列中的下一个词元。主要用于自回归模型(如GPT系列),使其具备强大的文本生成能力。
Masked Language Modeling (MLM)
另一种预训练目标,模型被训练来预测输入序列中被随机遮盖(mask)的词元。主要用于双向模型(如BERT系列),使其能学习到更深刻的语境理解能力。
Supervised Fine-Tuning (SFT) / Instruction Tuning
对齐的第一步。模型在一个由“指令-响应”对构成的数据集上进行微调,从而学会遵循人类的指令并执行特定任务。
Reinforcement Learning from Human Feedback (RLHF)
一种先进的对齐技术。首先训练一个奖励模型(Reward Model)来学习人类的偏好,然后使用强化学习算法(如PPO)根据该奖励模型来微调LLM,使其输出更符合人类细微的偏好。
Direct Preference Optimization (DPO)
RLHF的一种更简洁、更稳定的替代方案。它绕过了独立的奖励模型和强化学习过程,直接利用人类偏好数据,通过一个简单的分类损失函数来直接优化LLM的策略。

第二部分:扩展与效率层 - 为增长而生的架构

核心技术 (英文原文)
概述
Mixture-of-Experts (MoE)
一种旨在提升模型效率和扩展性的架构。它将模型中的某些层替换为由多个并行的“专家”网络和一个“门控网络”(Router)组成。对于每个输入词元,门控网络只选择激活一小部分专家进行计算,从而在拥有海量总参数的同时,保持较低的单次计算成本。
State Space Models (SSMs) / Mamba
一种为解决Transformer在处理超长序列时效率低下($O(n^2)$复杂度)而设计的替代架构。SSM通过一个“隐藏状态”来处理序列,具有线性时间复杂度(O(n))。Mamba是SSM的代表,通过选择性机制和硬件感知设计,实现了与Transformer相媲美的性能和更高的效率。
Quantization
一种模型优化技术,通过降低模型权重和激活值的数值精度(如从FP32降至INT8),来显著减小模型尺寸、降低内存占用并提升推理速度。
Pruning / Sparsity
一种模型优化技术,其基本假设是大型模型中存在大量冗余参数。通过移除(剪枝)这些不重要的参数来减小模型尺寸和计算量,引入稀疏性。
Knowledge Distillation
一种模型压缩技术。通过训练一个小型、高效的“学生”模型,去模仿一个大型、强大的“教师”模型的行为(特别是其输出的完整概率分布),从而将“知识”迁移给学生模型,使其在参数量远小于教师的情况下达到优异性能。

第三部分:能力层 - 从预测到行动的进化

核心技术 (英文原文)
概述
Emergent Abilities
指在小型模型中不存在,但在模型规模跨越某个临界点后,性能会突然、非线性地急剧提升的能力。例如多步算术运算和上下文学习。关于其是否为真实现象存在学术争议。
In-context Learning
LLM的一项涌现能力,指模型无需更新权重,仅通过在提示(Prompt)中给出几个示例,就能学会并执行一个新任务。
Multimodal Large Language Models (MLLMs)
能够整合并协同处理来自不同数据类型(如文本、图像、音频)信息的大型语言模型。其架构通常包括模态编码器、连接器和LLM主干,旨在实现更全面、更富语境的智能。
LLM Agents
一种新的应用范式,将LLM从一个被动的“信息生成器”转变为一个主动的“任务执行者”。智能体能够使用外部工具,与真实世界的数据和服务进行交互,以完成复杂的任务。
Function Calling / Tool Use
LLM智能体的基础能力。模型能够分析用户请求,并判断是否需要借助外部工具。如果需要,它会生成一个结构化的API调用指令(如JSON对象),交由外部程序执行,从而获取实时或外部信息。
ReAct (Reasoning and Acting)
一种先进的智能体框架,它将LLM的推理(Reasoning)和行动(Acting)能力协同起来。通过一个迭代的“思考 -> 行动 -> 观察”循环,智能体能够分解并解决复杂的多步骤任务。

第四部分 & 第五部分:应用与前沿

核心技术 (英文原文)
概述
Conversational Analytics
一种企业应用,利用LLM大规模分析客户反馈(如电话录音、评论),自动识别情绪、关键主题和趋势,以优化客户体验。
Agent Assist
一种企业应用,LLM作为辅助工具,为人类客服代表提供实时信息检索、任务自动化和产品推荐,以提升服务质量和效率。
LLMOps
围绕LLM应用开发、部署和维护的一套全新的运维理念和工具链,类似于软件开发领域的DevOps。LangChain和LlamaIndex是代表性框架。
Hallucination
LLM的一个根本性缺陷,指模型会生成看似合理但实际上是错误的、捏造的或与事实不符的内容。这是提升模型可靠性的主要障碍。
Retrieval-Augmented Generation (RAG)
对抗幻觉的主流技术范式。在生成答案前,模型首先从一个外部可信的知识库中检索相关信息,并将其作为上下文,以生成基于事实的、可验证的回答。
AI Alignment
一个至关重要的研究领域,旨在确保AI系统的行为安全、可控,并与人类的价值观和意图保持一致。
Jailbreaking
一种对抗性提示(Adversarial Prompting)攻击,恶意用户通过精心设计的提示,诱导模型绕过其安全护栏,生成有害或被禁止的内容。
Catastrophic Forgetting
持续学习中的一个核心难题。当一个已训练好的模型学习新任务时,它会覆盖或破坏掉用于存储旧任务知识的权重,导致其在旧任务上的性能急剧下降。
Continual Learning
指让AI模型能够像人类一样,持续不断地从新数据中学习新知识和技能,同时不忘记已经学过的内容。解决“灾难性遗忘”是实现该能力的关键。
REFER: Gemini 2.5
 
 

© Quinn Xen 2022 - 2025