- 嵌入模型提供商(OpenAI、Cohere、Google、AWS)会定期弃用旧版模型。一旦弃用,索引中的每个向量都需重新生成。
- 不同模型生成的嵌入在几何上互不兼容,即使维度相同也是如此。没有捷径:必须重新嵌入。
- 三种生产环境策略:蓝绿索引部署(构建并行索引并切换)、混合模型索引配合 RRF 融合(在保持两者均可查询的同时逐步迁移),以及嵌入空间对齐(前景广阔的研究方向,但目前尚无确认的生产部署)。
- 标准 A/B 测试在嵌入模型替换时具有误导性,因为检索步骤本身已发生变化。应使用 LLM 作为裁判进行离线验证,并采用带自动回滚功能的金丝雀发布。
- 从第一天起就为迁移做好准备:对嵌入进行版本控制,将原始文本与向量一同存储,并准备好检索评估框架。那些将嵌入模型视为永久决策的团队,在收到弃用通知时会陷入混乱。
hackernoon.com
Your Embedding Model Will Deprecate. Here's What to Do.
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
Create attached notes ...
