专利设计图检索总翻车?星河智源独家AI多模态大模型颠覆性技术,破解专利图像识别世纪难题!

来源:知呱呱
阅读量:28
时间:2025.07.08

某中国车企想在欧洲申请新车外观专利,用图形检索时,系统因为专利附图是侧视图,而上传图是正视图,愣是没认出来


某设计师拿着一张齿轮传动系统图去检索,图纸上用虚线表示隐藏结构,用箭头标注动力流向。但系统返回的相似专利全是实心齿轮,没一个匹配虚线结构的。“虚线明明是关键创新点,它却当涂鸦”!


小李设计了一款【带波浪纹的红色保温杯】,想排除相似外观专利。上传图后,系统返回一堆杯身是条纹而非波浪纹的水杯。“我要的是波浪纹,系统却觉得都是曲线,差不多”。



(作为设计师,看到传统方式搜出来的这些图真的很难评......)


传统专利图形检索的故事,哦不,事故还有很多,那么图形检索到底难在哪里?现在是否有技术可以攻克这些问题?带着这些疑问,我们找到了星河智源算法专家,让他为我们答疑解惑。



传统的图形检索为什么那么难?


某设计师画了张机械零件草图,想查是否侵权。传统方式有两种:一种是以文搜图,一种是以图搜图。既然方式这么多,那难点在哪呢?我们接着往后看。


如果以文搜图:你要先用语言尝试描述它:“一个……嗯……流线型的,带有弧度……顶部有个凹槽的设备”,按照这个描述,你会发现搜出来东西不仅千奇百怪,而且数量有几百万,想找到自己想要的简直难如登天。


为什么呢?道理其实很简单。比如一辆自行车、一个电饭煲,这个物件图像上非常直观,但是文字描述就需要叙述一长串,而且描述完还不一定能把物件描述清楚,因此很容易出现搜非所需的情况;


另外,有些专利存在语言障碍,需要多国语言翻译,这时文本检索时,如果语言翻译不准,那搜出来的东西大概率就大相径庭;


最后,在一些特殊领域,比如实用新型专利里的机械图,线条非常抽象,可以说大部分人看完图形线条依然不知道这到底是什么东西,如果连看都看不懂,那大概率更难描述清楚,所以搜出千奇百怪的东西就不奇怪。



(看线条确实看不出这是什么......)


既然以文搜图不行,那以图搜图总快很多了吧?情况还真不是想象的那样。


传统的图搜就像个“死脑筋”:它得先把图片转换成电脑能识别的“数字密码”(也就是向量),然后再去一堆数字密码里找相似的。但这时候的图像识别系统只认识图片表面的长相(比如颜色等),完全不懂图片里东西的名字(比如类别等)。


因此,当你拿着一张红色圆形锅盖的电饭煲图去搜,想找个白色方形锅盖的电饭煲时,系统只会傻乎乎地比对颜色等表面特征,根本不管你要的是“红色电饭煲”还是“红色房子”。因为既不理解电饭煲这一类别,也无法精准识别方形还是圆形的锅盖细节,因此你只能在巨量的专利信息中去找找找,翻翻翻,最后可能翻到某一页才翻出来。



(很多图形甚至和电饭煲甚至已经没有关系了,笑死)


由此可见,传统的检索方式,要么是“说不清、道不明”,要么是“看得见、看不懂”,效率低下、错漏百出。作为一名21世纪的创作者,想查张图是否侵权竟然这么难,这合理吗?当然不合理


正是看到了这些悬而未决的痛点,星河智源决定对图形检索进行一次彻底的“升维打击。那么,与传统方式相比,星河智源的图形检索,其颠覆性价值究竟体现在哪呢?


首先,快、准、狠,直击核心: 对于外观设计、商标图案这类“颜值即正义”的知识产权,星河智源图形检索可以直接扫描和对比图像的形状、轮廓、纹理,精准度远超模糊的文字描述。避免侵权、规避重复研发,就是这么直接。


其次,打破语言壁垒,全球视野一键通: 德国人的设计图、日本人的商标,无压力翻译。对于跨国企业而言,这意味着真正的全球专利监控成为可能。


最后,读懂“天书”,化繁为简: 那些复杂的工业机械图、电路设计图,普通人看着像天书,用文字描述更是难上加难。星河智源图形检索却能轻松消化这些复杂信息,为你提供直观的对比结果。



星河智源图形检索背后的技术揭秘


那么,星河智源图形检索为何如此强大?因为它并非简单地进行像素比对,而是拥有一颗被“多模态大模型”武装起来的超级大脑


这听起来很酷,但“多模态大模型”到底是什么?


它就像一个双重大脑—— 同时拥有图像大脑和文字大脑图像大脑用Transformer网络提取图形特征,比如手办的熊猫轮廓、机械臂的关节形状;文字大脑同步解析专利文本里的语义,比如可活动关节、金属外壳。两个大脑一配合,哪怕图纸上只有几根线条,也能精准匹配到对应的专利描述。


这套系统具体是如何运行的呢?可以简化为三步曲:“看清 → 理解 → 贯通”。


首先,图像特征提取(看清):当你上传一张红色自行车的图片,AI首先会像一个像素级的扫描仪,将图片分解为最基础的视觉元素:线条、形状、颜色、纹理等。这是它的“眼睛”。


其次,语义映射(理解):同时,AI的另一部分——一个强大的语言模型(你可以理解为它的“大脑”),早已学习了海量的“图片+文字描述”数据。它知道“红色”这个词对应什么样的视觉色彩,“自行车”这个词对应着两个轮子、一个车架的结构。


最后,跨模态检索(通感):最关键的一步来了。AI将“眼睛”看到的视觉特征,和“大脑”理解的语义信息进行深度融合、对齐。它不再是分裂地看待一张图和一段文字,而是将它们统一成一个既包含视觉又包含语义的“数字指纹”。


如此一来:


星河智源图形检索的以文搜图效率翻倍:你可以直接输入“红色自行车”,系统就能精准地从亿级别的专利附图库中,为你找出所有符合这个“语义”的自行车图片。这是传统图形检索无法想象的能力,也是我们区别于多数竞品的“独门绝技”。



(星河智源就是这么高效!)


图文混检的精准率翻番:你可以上传一张自行车的草图,同时在搜索框里加上文字“要求带车篮”。图形检索就能在所有相似的自行车设计中,优先为你呈现那些带有车篮的专利。这种“指哪打哪”的检索能力,让你的需求被前所未有地精准满足。



(星河智源就是这么高效!)


当然,在任何一个领域,要做到1+1>2都不容易。那么星河智源是如何打造这么专业的平台呢?实际上,就和培育孩子一样,基础和名师一个都不能少。


首先,基础得打好。我们的大模型看过超2亿张专利图,比审查员还见多识广。这些数据来自全球专利局,这就相当于脑子里装了个专利博物馆,检索时自然能快速匹配。




其次,名师教得好。AI+人工的组合让大模型更加聪明。具体而言,在学习过程中,AI先粗加工,用现有的大模型对训练数据进行预标注;人工来“精加工”,由标注人员对预标注数据进行精确标注,以生成高质量的训练样本;行业老手“把关”,由领域专家评估检索结果,并给出建议;模型“知错就改”,基于上述反馈,调整模型参数或重新训练模型,从而逐步提升模型的准确性




可以说,星河智源的强大并非偶然。它背后既有“海量数据”打基础,又有“AI+专家”不断调试。如此一来,这个“超级大脑”,才能确保检索结果的专业与精准



不只检索

更是“AI+知识产权”的全链路赋能


在星河智源的蓝图中,图形检索并非一个孤立的功能,而是未来AI+知识产权大数据创新平台全链路闭环中至关重要的起点。


想象一下你的创新之旅:


检索(探索):你用一张草图,通过星河智源图形检索快速完成全球范围内的技术摸底和创意探索,找到创新的切入点


分析(洞察):基于检索结果,系统自动为你生成专利对比报告,让你清晰地看到自己与他人的技术差异、优势劣势


创作(生成):在规避了侵权风险、明确了创新点后,“智能撰写”辅助你高效生成高质量的专利申请文件,甚至根据分析结果自动调整权利要求的布局


管理(守护):专利获批后,系统会自动将其纳入你的知识产权资产库,进行全生命周期的监控和管理


从一个模糊的想法,到一个受法律保护的、可产生商业价值的知识产权资产,星河智源未来将用AI助力这条漫长而专业的道路,变得前所未有的高效、智能和可控


技术的发展,最终是为了服务于人的创造力。图形检索技术,尤其是融入了多模态大模型能力的图形检索正在成为知识产权行业数字化变革的强大引擎。它不仅在改变我们检索信息的方式,更在重塑我们构思、创造和保护创新的全过程。


下一次,当你灵感涌现时,不必再苦苦思索如何用语言描述,把它画出来,剩下的,交给星河智源的图形检索

  • 团队专,服务专

    一对一,专家服务

  • 响应快,效率高

    响应及时,服务高效

  • 质量好,保密好

    授权率高,安全性强

  • 省费用,省心力

    全程托管,进度可查

400-650-1606

(周一至周五 9:00-18:30)

· 快捷下单查询 ·

· 资讯前沿有料 ·

©  2015-2025  知呱呱  京ICP备15033495号  京ICP证160949号 | 国家知识产权局批准机构代码:11577

知呱呱诚信网站 知呱呱报警服务 知呱呱信息信用网