Q18: 如何在 LangChain 中实现基于令牌计数的成本估算?

在 LangChain 中实现基于令牌计数的成本估算，主要有以下四种主流方法。

🧠 核心概念：理解 Token 与成本

首先，理解成本计算的核心是必要的。

成本公式：
```
单次调用总成本 = (输入 Token 数 × 输入单价) + (输出 Token 数 × 输出单价)
```
这里需要注意，对于大多数模型，输出Token的单价通常高于输入Token。
单价来源：
- 官方定价：各模型提供商（如 OpenAI、Anthropic）会发布官方定价，通常以“每百万 Token”为单位。
- 自定义覆盖：在 LangSmith 或自定义计算函数中，你可以手动添加或覆盖特定模型的单价。

明确了这个公式，我们就可以开始讨论具体的实现了。

💻 主流实现方法详解与示例

根据不同的应用场景，LangChain 提供了多种实现方案。

1. `AIMessage.usage_metadata`：最基础的获取方式

这是最直接、轻量级的方法，适合只需要获取单次调用的原始 Token 计数，并在外部进行计算的简单场景。LangChain 已经将不同 API 返回的 Token 使用信息，标准化到了响应的 AIMessage 对象的 usage_metadata 属性中。

from langchain.chat_models import init_chat_model
# 使用 init_chat_model 统一初始化，可兼容多种模型
llm = init_chat_model(model="gpt-4o-mini")

response = llm.invoke("Hello, world!")

# 直接提取标准化的元数据
token_usage = response.usage_metadata
print(token_usage)  # 输出示例: {'input_tokens': 8, 'output_tokens': 9, 'total_tokens': 17}

2. `@traceable` 装饰器 + LangSmith：一键集成的全链路追踪

这是最强大、最省事的方案，适合需要深度监控、分析和优化成本的复杂生产项目。LangChain 官方提供的 LangSmith 平台，能自动追踪、聚合展示成本数据。

准备工作：
1. 环境变量：设置 LANGSMITH_TRACING=true 和 LANGSMITH_API_KEY。
2. 模型定价：在 LangSmith 的设置页面配置好模型的单价。

代码示例：只需在函数上添加 @traceable 装饰器，LangSmith 就会自动记录该次调用的所有 Token 使用量和预估成本。

from langsmith import traceable
from langchain.chat_models import init_chat_model

@traceable
def my_llm_call(prompt: str):
    llm = init_chat_model(model="gpt-4o-mini")
    response = llm.invoke(prompt)
    # 装饰器会自动记录这个 response 的调用信息
    return response

# 执行后会向 LangSmith 发送追踪数据
result = my_llm_call("Say hello")

3. Callback Handlers：轻量级的程序内成本监控

如果你不想使用 LangSmith，但仍希望在 Python 程序中实时监控成本，可以使用内置的回调处理器。LangChain 提供了 UsageCallbackHandler (通过 get_openai_callback)。

import langchain
from langchain_community.callbacks import get_openai_callback
from langchain.chat_models import init_chat_model

llm = init_chat_model(model="gpt-4o-mini")

# 使用上下文管理器包裹 LLM 调用
with get_openai_callback() as cb:
    result_1 = llm.invoke("What is the capital of France?")
    result_2 = llm.invoke("And of Germany?")

    # 打印汇总的成本信息
    print(f"Total Tokens: {cb.total_tokens}")   # 总令牌数
    print(f"Prompt Tokens: {cb.prompt_tokens}") # 提示令牌数
    print(f"Completion Tokens: {cb.completion_tokens}") # 完成令牌数
    print(f"Total Cost (USD): ${cb.total_cost}") # 总成本（美元）

优点：无需外部平台，能直接在代码中进行聚合统计。
限制：get_openai_callback 最初主要为 OpenAI 模型设计，对于其他模型可能需要自定义扩展。

4. Custom Token Counter + Price Map：为国产/小众模型做定制化

如果你的模型 API 不提供标准的 usage_metadata，或者你想完全自主控制成本计算逻辑，就需要自己动手实现。这通常分为两步：

Token 计数：使用如 tiktoken (OpenAI 官方库) 等工具，在发送请求前预估输入 Token 数。
价格映射：维护一个自定义的价格表（Price Map），根据模型名称和 tiktoken 算出的 Token 数来计算成本。LangChain 官方文档也提到了使用 price_map 参数来自定义价格。

import tiktoken

def estimate_cost(prompt: str, model_name: str) -> float:
    # 1. 使用 tiktoken 编码器对 prompt 进行计数
    encoding = tiktoken.encoding_for_model(model_name)
    input_tokens = len(encoding.encode(prompt))
    
    # 2. 自定义价格表（单位：美元 / 百万 Token）
    price_map = {
        "gpt-4o-mini": {"input": 0.150, "output": 0.600},
        "gpt-4o": {"input": 2.50, "output": 10.00},
    }
    # 3. 成本计算（输出成本需先预估，或调用后获取）
    input_cost = input_tokens / 1_000_000 * price_map[model_name]["input"]
    
    return input_cost

⚠️ 注意事项与进阶要点

流式响应与 Token 计数：在流式模式下，OpenAI 模型的 API 默认不返回 Token 使用数据。要解决这个问题，可以在调用时设置 stream_usage=True 参数，LangChain 会在最后一个 chunk 中附带上 Token 使用信息。
估算 vs. 准确计数：tiktoken 这类工具的计算结果是精确的。如果模型提供商返回了 usage_metadata，建议优先使用其官方计数值，因为它包含了模型内部处理逻辑，是最终计费的真实依据。
多模态与缓存：现代模型（如 GPT-4o）对图像和音频有不同定价，正确设置缓存也能降低成本。如果使用这种模型，务必在价格映射或 LangSmith 配置中正确设置这些分项价格，成本计算才能精准。
聚合策略：生产环境中，建议结合 Prometheus 等监控系统，将每次调用的令牌数、模型、时间戳等信息上报，以构建成本仪表盘和告警机制。

💎 面试回答要点

抓住核心公式：成本 = (输入 Token × 输入单价) + (输出 Token × 输出单价)。
展现广度：能列举 2-3 种实现方法（如 usage_metadata， LangSmith， callback），并说明它们各自适合什么场景。
体现深度：对主流方法，能随口说出关键的 API 名称（如 AIMessage.usage_metadata， get_openai_callback）。
考虑实际痛点：能主动提到流式传输中如何获取 Token 计数（stream_usage=True），这会是个很好的加分项。

🧠 核心概念：理解 Token 与成本​

💻 主流实现方法详解与示例​

1. AIMessage.usage_metadata：最基础的获取方式​

2. @traceable 装饰器 + LangSmith：一键集成的全链路追踪​

3. Callback Handlers：轻量级的程序内成本监控​

4. Custom Token Counter + Price Map：为国产/小众模型做定制化​

⚠️ 注意事项与进阶要点​

💎 面试回答要点​