国家知识产权局信息显示,西安交通大学;国网陕西省电力有限公司物资公司申请一项名为“一种基于图文语义对齐的PDF解析方法及系统”的专利,公开号CN121723968A,申请日期为2025年12月。
专利摘要显示,本发明提出一种基于图文语义对齐的PDF解析方法及系统,属于文档处理技术领域。方法包括:读取PDF或图片文件字节数据,将图片转PDF字节数据以统一格式;依输出目录、PDF名及解析方法,创建图像与Markdown目录;按起止页码提取PDF指定页面字节数据;选后端分析PDF字节数据,得推理结果、图像列表等;据分析结果生成含PDF详细信息的中间JSON;分析文本与图片位置、关联信息,实现图文语义对齐;依中间JSON生成多类机器可读文件并存指定目录。该方法可准确提取PDF多模态内容并语义对齐,高效转化为机器可读格式,提升解析准确性与可用性,适用于科技文献等多图文表格PDF解析。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
来源:市场资讯