知识科普
1. 什么是 Tokens?
Tokens 是 AI 模型处理文本的基本单位,可以理解为模型"思考"的最小单元。它不完全等同于字符或单词。
- 中文分词:一个汉字通常会被编码为 1-2 个 tokens(例如:"你好" ≈ 2-4 tokens)。
- 英文分词:常见单词通常是 1 个 token,较长或不常见的单词会被分解成多个 tokens。
- 特殊字符:空格、标点符号、换行符等也会占用 tokens。
2. 什么是 Tokenizer?
Tokenizer(分词器)是 AI 模型将文本转换为 tokens 的工具。不同模型的 Tokenizer 可能不同,原因包括训练数据差异、分词算法不同(如 BPE, WordPiece)以及优化目标不同。
3. 什么是嵌入模型 (Embedding Model)?
嵌入模型是一种将高维离散数据(文本、图像等)转换为低维连续向量的技术。它作为"翻译官",将人类可理解的信息转换为 AI 可计算的数字形式。
- 工作原理:将词语映射到向量空间,语义相近的词会自动聚集在一起。
- 应用场景:文本分析、推荐系统、图像处理、语义搜索。
- 核心优势:降维效果好、语义保持完整、计算效率高。
4. 什么是 MCP (Model Context Protocol)?
MCP 是一种开源协议,旨在以标准化的方式向大型语言模型(LLM)提供上下文信息。
- 类比理解:可以把 MCP 想象成 AI 领域的“U盘”。MCP Server 上可以“插”上各种提供上下文的“插件”,LLM 可以根据需要请求这些插件。
- 核心优势:标准化接口、模块化管理、灵活选择、高可扩展性。