RAG-Anything

RAG-Anything Logo

“
在学术研究、技术报告、金融分析、企业知识管理等领域，我们经常需要处理包含文本、图片、表格、公式等多模态内容的文档。传统的RAG（检索增强生成，Retrieval-Augmented Generation）系统多以文本为中心，对这些复杂元素往往力不从心。
”

RAG-Anything 正是为了解决这一现实痛点而诞生：它是一套 All-in-One 多模态文档处理与RAG系统，基于 LightRAG 构建，能够无缝处理文本、图像、表格、数学表达式等多种信息形式，提供真正的一站式检索与生成体验。

? 为什么选择 RAG-Anything？

在信息爆炸的今天，我们所面对的文档几乎不再是单一的文字，而是图文交错、多重结构的复杂文档。传统的纯文本RAG无法保留表格中的数值关系，也无法解读公式背后的语义，更无法解析图像里的核心信息。

RAG-Anything 的优势在于：

真正的多模态集成：文本、图像、表格、公式一次性处理，避免依赖多个工具。
统一的查询接口：无论是提问文字内容，还是要求分析图像、解释公式，都能通过同一个接口实现。
知识图谱加持：自动构建跨模态知识图谱，捕捉实体关系，保证检索的上下文完整性。
高适应性：依托 MinerU 解析与并行多通道处理架构，能处理从学术论文到企业财报的各种复杂文档。

? 核心功能解析

1. 端到端多模态处理

从文档解析、内容分类，到知识图谱构建、智能检索，全流程覆盖。

2. 多格式支持

兼容 PDF、Office文档、图片、文本文件等主流格式。

3. 智能分析器

图像分析器：自动生成图像说明文字，识别空间结构。
表格分析器：提取数值关系，识别趋势模式。
公式解析器：支持LaTeX，映射学术公式与知识库概念。

4. 跨模态知识图谱

不仅保存文本，还能把图像、表格、公式转化为图谱节点，进行实体关系推理。

5. 多模式检索

结合向量搜索 + 图谱遍历，实现语义 + 结构化的智能搜索。

?️ 工作原理与架构

RAG-Anything 的核心管道可概括为以下 5 个阶段：

文档解析：依托 MinerU 与 Docling 提供高保真解析，细粒度提取文本、图片、表格等元素。
内容分类与并行处理：智能路由不同模态内容到专属分析通道。
多模态分析：针对图像、表格、公式，调用对应的分析器输出结构化结果。
知识图谱构建：抽取实体与跨模态关系，保证上下文一致性。
模态感知检索：结合语义检索、图谱推理，返回上下文完整的结果。

这种架构保证了复杂文档的高效理解与智能问答。

? 快速上手

安装方式

PyPI 安装（推荐）：

pip install raganything
pip install 'raganything[all]'   # 开启所有可选特性

源码安装：

git clone https://github.com/HKUDS/RAG-Anything.git
cd RAG-Anything
uv sync --all-extras

? 注意：Office 文档处理依赖 LibreOffice，需额外安装。

基本用例：完整文档处理与问答

from raganything import RAGAnything, RAGAnythingConfig

config = RAGAnythingConfig(
    working_dir="./rag_storage",
    parser="mineru",  # 支持 mineru 或 docling
    enable_image_processing=True,
    enable_table_processing=True,
    enable_equation_processing=True,
)

rag = RAGAnything(config=config)

# 扫描并处理文档
await rag.process_document_complete(
    file_path="research_paper.pdf",
    output_dir="./output"
)

# 发起查询（可选择纯文本或多模态模式）
result = await rag.aquery("请解释文中公式的研究意义", mode="hybrid")
print(result)

多模态查询场景示例

图像分析：

vlm_result = await rag.aquery("分析文中的图表趋势", mode="hybrid", vlm_enhanced=True)

公式解释：

equation_result = await rag.aquery_with_multimodal(
    "请解释该概率公式",
    multimodal_content=[{"type": "equation", "latex": "P(d|q) = ..."}],
    mode="hybrid"
)

表格对比：

table_result = await rag.aquery_with_multimodal(
    "对比最新结果与表格中的基准结果",
    multimodal_content=[{"type": "table", "table_data": "Method,Accuracy..."}],
    mode="hybrid"
)

这些功能使得科研人员能直接将论文中的图表、公式与上下文知识库结合，得到深度解析。

?️ 高级功能：直接插入解析内容

除了让系统自己解析文档外，RAG-Anything 还支持直接注入自定义解析结果，例如从外部OCR工具获得的内容：

content_list = [
    {"type": "text", "text": "这是研究论文的引言部分"},
    {"type": "image", "img_path": "/path/figure1.jpg", "image_caption": ["图1：模型架构"]},
    {"type": "table", "table_body": "| 方法 | 准确率 |\n|---|---|\n| 我们的方法 | 95.2% |"},
]
await rag.insert_content_list(content_list, file_path="custom_paper.pdf")

? 典型应用场景

学术研究：自动解析论文中的公式、图表，实现跨文献知识问答。
金融分析：直接处理财报中的表格与图表，结合文本进行趋势预测与数据洞察。
法律与政企文档：在复杂合同和政策文件中混合图表分析，提高检索效率。
企业内部知识库：无需人工预处理，即可统一管理不同格式文档，支持员工自然语言查询。

? 系统配置与优化

RAG-Anything 提供灵活的配置参数：

Parser 选择：mineru（更适合科研PDF）或 docling（更适合Office文档）。
并行通道：支持文本流与图像流并发解析。
模态处理开关：可指定是否启用图像、表格、公式解析。

这些配置使其能在快速场景与深度研究间灵活切换。

? 同类优质项目推荐

除了 RAG-Anything，HKUDS 团队还推出了多款 RAG 相关框架：

⚡ LightRAG：轻量级高速RAG框架，专注于简单与快速检索增强。
? VideoRAG：面向超长视频内容的RAG系统，能处理大时长、多模态视频检索。
✨ MiniRAG：极简版RAG工具，几行代码即可实现快速入门。

这三款项目形成了一个完整的 RAG生态圈：

想要轻量部署就选 MiniRAG，
想要高效泛用就选 LightRAG，
面向复杂多模态文档，就选 RAG-Anything，
若处理视频场景，则用 VideoRAG。

通过 RAG-Anything，我们终于能在同一个框架中流畅处理文字、表格、图片、公式，真正实现跨模态知识交互。这意味着未来研究人员无需耗费大量时间在格式转换和工具切换上，而是能专注于知识本身的价值发现。

? 参考地址：

• https://github.com/HKUDS/RAG-Anything

打赏

本文链接：https://kinber.cn/post/5692.html 转载需授权！

分享到：

推荐本站淘宝优惠价购买喜欢的宝贝:

您阅读本篇文章共花了：

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

HQY

一个和谐有爱的空间

RAG-Anything：下一代多模态RAG框架，一站式解决复杂文档检索与生成

hqy 发表于2025-10-09 00:04:19 浏览309 评论0