商标注册>知呱呱研究院>呱呱动态

专利设计图检索总翻车？星河智源独家AI多模态大模型颠覆性技术，破解专利图像识别世纪难题！

来源：知呱呱

阅读量：28

时间：2025.07.08

某中国车企想在欧洲申请新车外观专利，用图形检索时，系统因为专利附图是侧视图，而上传图是正视图，愣是没认出来。

某设计师拿着一张齿轮传动系统图去检索，图纸上用虚线表示隐藏结构，用箭头标注动力流向。但系统返回的相似专利全是实心齿轮，没一个匹配虚线结构的。“虚线明明是关键创新点，它却当涂鸦”！

小李设计了一款【带波浪纹的红色保温杯】，想排除相似外观专利。上传图后，系统返回一堆杯身是条纹而非波浪纹的水杯。“我要的是波浪纹，系统却觉得都是曲线，差不多”。

（作为设计师，看到传统方式搜出来的这些图真的很难评......）

传统专利图形检索的故事，哦不，事故还有很多，那么图形检索到底难在哪里？现在是否有技术可以攻克这些问题？带着这些疑问，我们找到了星河智源算法专家，让他为我们答疑解惑。

传统的图形检索为什么那么难？

某设计师画了张机械零件草图，想查是否侵权。传统方式有两种：一种是以文搜图，一种是以图搜图。既然方式这么多，那难点在哪呢？我们接着往后看。

如果以文搜图：你要先用语言尝试描述它：“一个……嗯……流线型的，带有弧度……顶部有个凹槽的设备”，按照这个描述，你会发现搜出来东西不仅千奇百怪，而且数量有几百万，想找到自己想要的简直难如登天。

为什么呢？道理其实很简单。比如一辆自行车、一个电饭煲，这个物件图像上非常直观，但是文字描述就需要叙述一长串，而且描述完还不一定能把物件描述清楚，因此很容易出现搜非所需的情况；

另外，有些专利存在语言障碍，需要多国语言翻译，这时文本检索时，如果语言翻译不准，那搜出来的东西大概率就大相径庭；

最后，在一些特殊领域，比如实用新型专利里的机械图，线条非常抽象，可以说大部分人看完图形线条依然不知道这到底是什么东西，如果连看都看不懂，那大概率更难描述清楚，所以搜出千奇百怪的东西就不奇怪。

（看线条确实看不出这是什么......)

既然以文搜图不行，那以图搜图总快很多了吧？情况还真不是想象的那样。

传统的图搜就像个“死脑筋”：它得先把图片转换成电脑能识别的“数字密码”（也就是向量），然后再去一堆数字密码里找相似的。但这时候的图像识别系统只认识图片表面的长相（比如颜色等），完全不懂图片里东西的名字（比如类别等）。

因此，当你拿着一张红色圆形锅盖的电饭煲图去搜，想找个白色方形锅盖的电饭煲时，系统只会傻乎乎地比对颜色等表面特征，根本不管你要的是“红色电饭煲”还是“红色房子”。因为既不理解电饭煲这一类别，也无法精准识别方形还是圆形的锅盖细节，因此你只能在巨量的专利信息中去找找找，翻翻翻，最后可能翻到某一页才翻出来。

（很多图形甚至和电饭煲甚至已经没有关系了，笑死）

由此可见，传统的检索方式，要么是“说不清、道不明”，要么是“看得见、看不懂”，效率低下、错漏百出。作为一名21世纪的创作者，想查张图是否侵权竟然这么难，这合理吗？当然不合理！

正是看到了这些悬而未决的痛点，星河智源决定对图形检索进行一次彻底的“升维打击”。那么，与传统方式相比，星河智源的图形检索，其颠覆性价值究竟体现在哪呢？

首先，快、准、狠，直击核心：对于外观设计、商标图案这类“颜值即正义”的知识产权，星河智源图形检索可以直接扫描和对比图像的形状、轮廓、纹理，精准度远超模糊的文字描述。避免侵权、规避重复研发，就是这么直接。

其次，打破语言壁垒，全球视野一键通：德国人的设计图、日本人的商标，无压力翻译。对于跨国企业而言，这意味着真正的全球专利监控成为可能。

最后，读懂“天书”，化繁为简：那些复杂的工业机械图、电路设计图，普通人看着像天书，用文字描述更是难上加难。星河智源图形检索却能轻松消化这些复杂信息，为你提供直观的对比结果。

星河智源图形检索背后的技术揭秘

那么，星河智源图形检索为何如此强大？因为它并非简单地进行像素比对，而是拥有一颗被“多模态大模型”武装起来的超级大脑。

这听起来很酷，但“多模态大模型”到底是什么？

它就像一个双重大脑—— 同时拥有图像大脑和文字大脑：图像大脑用Transformer网络提取图形特征，比如手办的熊猫轮廓、机械臂的关节形状；文字大脑同步解析专利文本里的语义，比如可活动关节、金属外壳。两个大脑一配合，哪怕图纸上只有几根线条，也能精准匹配到对应的专利描述。

这套系统具体是如何运行的呢？可以简化为三步曲：“看清 → 理解 → 贯通”。

首先，图像特征提取（看清）：当你上传一张红色自行车的图片，AI首先会像一个像素级的扫描仪，将图片分解为最基础的视觉元素：线条、形状、颜色、纹理等。这是它的“眼睛”。

其次，语义映射（理解）：同时，AI的另一部分——一个强大的语言模型（你可以理解为它的“大脑”），早已学习了海量的“图片+文字描述”数据。它知道“红色”这个词对应什么样的视觉色彩，“自行车”这个词对应着两个轮子、一个车架的结构。

最后，跨模态检索（通感）：最关键的一步来了。AI将“眼睛”看到的视觉特征，和“大脑”理解的语义信息进行深度融合、对齐。它不再是分裂地看待一张图和一段文字，而是将它们统一成一个既包含视觉又包含语义的“数字指纹”。

如此一来：

星河智源图形检索的以文搜图效率翻倍：你可以直接输入“红色自行车”，系统就能精准地从亿级别的专利附图库中，为你找出所有符合这个“语义”的自行车图片。这是传统图形检索无法想象的能力，也是我们区别于多数竞品的“独门绝技”。

（星河智源就是这么高效！）

图文混检的精准率翻番：你可以上传一张自行车的草图，同时在搜索框里加上文字“要求带车篮”。图形检索就能在所有相似的自行车设计中，优先为你呈现那些带有车篮的专利。这种“指哪打哪”的检索能力，让你的需求被前所未有地精准满足。

（星河智源就是这么高效！）

当然，在任何一个领域，要做到1+1>2都不容易。那么星河智源是如何打造这么专业的平台呢？实际上，就和培育孩子一样，基础和名师一个都不能少。

首先，基础得打好。我们的大模型看过超2亿张专利图，比审查员还见多识广。这些数据来自全球专利局，这就相当于脑子里装了个专利博物馆，检索时自然能快速匹配。

其次，名师教得好。AI+人工的组合让大模型更加聪明。具体而言，在学习过程中，AI先粗加工，用现有的大模型对训练数据进行预标注；人工来“精加工”，由标注人员对预标注数据进行精确标注，以生成高质量的训练样本；行业老手“把关”，由领域专家评估检索结果，并给出建议；模型“知错就改”，基于上述反馈，调整模型参数或重新训练模型，从而逐步提升模型的准确性。