CHROMA-ERR-0042 llm data_error ai_generated true

chromadb.errors.InternalError: 检测到索引损坏,需要重建。

chromadb.errors.InternalError: Index corruption detected. Rebuild required.

ID: llm/embedding-vector-index-corruption-after-reindex

其他格式: JSON · Markdown 中文 · English
82%修复率
85%置信度
1证据数
2024-06-15首次发现

版本兼容性

版本状态引入弃用备注
chromadb==0.4.22 active
chromadb==0.5.0 active
langchain-chroma==0.1.0 active

根因分析

当重建索引操作因崩溃或网络断开而中断时,ChromaDB 索引文件损坏,导致 HNSW 图处于不一致状态。

English

ChromaDB index files become corrupted when a reindex operation is interrupted by a crash or network disconnect, leaving the HNSW graph in an inconsistent state.

generic

官方文档

https://docs.trychroma.com/troubleshooting#index-corruption

解决方案

  1. 识别损坏的集合,删除它,然后重新摄取源文档:client.delete_collection('my_collection'); client.create_collection('my_collection'); 然后重新嵌入所有文档。对于生产环境,将源文档备份到独立存储(如 S3),并编写一个重新嵌入的脚本。
  2. 使用 ChromaDB 的内置持久性检查:运行 'chroma run --path /path/to/persist --debug' 并查找 'HNSW index integrity check failed'。然后使用 Python 客户端修复:collection._client._admin_client.reset_collection('my_collection')(需要管理员权限)。
  3. 设置一个 cron 任务,定期使用 chromadb.api.types.validate_metadata 验证索引完整性,并在任何重建索引操作之前对持久性目录进行快照。

无效尝试

常见但无效的做法:

  1. 95% 失败

    The corrupted HNSW graph persists on disk; restarting doesn't repair the structural damage, and the same corrupted files are loaded again.

  2. 98% 失败

    reset() wipes all data, not just the corrupted index, causing data loss for unrelated collections. It's a nuclear option that destroys all embeddings.

  3. 70% 失败

    If the original embedding source data is lost or not backed up, you cannot recreate the index. This only works if you have the raw documents and can re-embed them.