1、使用MinerU
将文件拖拽至上传区域,然后点击下方Convert,首次解析会加载模型,需要较长时间。
解析完成后,点击右上角的下载按钮(就是文件大小MB那个位置),下载成功后打开。
最终解析的格式包含图片、格式化pdf、json文档和md格式的完整解析数据。用户可以根据需求使用任意格式。
2、与Ragflow协作:
在Ragflow知识库的配置中,找到PDF解析器,选择MinerU(确保MinerU已经安装并且开启),然后保存。
注意,如果只是解析文字(包括扫描件中的文字),建议使用原始的Navie解析,速度最快。
如果文档中包含图片、图标等复杂内容,才有必要使用MinerU,使用MinerU之前,根据需求设置好对应的文档分割方式。


