大鱼|大鱼: 以图搜图、以视频搜视频,「神经搜索」比关键词搜索更高效?

一提到搜索引擎,相信绝大多数中国人脑内的第一反应便是百度,但实际上包括字节跳动在内的国内很多一线互联网企业都曾布局过搜索引擎业务。
2020年,字节跳动推出了独立搜索引擎“头条搜索”发力搜索引擎市场,且在2021年2月17日,抖音推出手指视频搜索宣传片,抖音的Boss直聘账号也公开招聘抖音搜索产品经理、搜索运营等职位。不过,由于市场中绝大多数人没有听说过头条搜索,作为一款新鲜搜索引擎,头条搜索仍有很长的路要走。
财大气粗的阿里巴巴在搜索引擎上走的则是一条更简单直白的路线,直接瞄准了百度占有率仍偏低的移动搜索引擎市场,2014年,在阿里与UC联手推出神马搜索后,看中UC在移动浏览器中的市场地位的阿里,便全资将UC收入囊中。2016年“夸克”作为UC与阿里的甜蜜结晶正式诞生,尽管以简洁的页面在小范围内聚集了一批用户,但夸克还是太小了,在搜索引擎市场中的影响如其名称一般只有“夸克”大小。
腾讯也早在2006年就开始运营搜搜(SOSO),2017年推出基于微信生态的微信搜一搜,尽管基于微信生态,搜一搜有着十分广大的用户生态,但也因此,搜一搜并不能作为独立的搜索引擎独立出来。2020年,微信全资收购搜狗在业内引起一片哗然,而市场占有率第二的搜狗业务量仍不足百度二分之一。
反观以搜索引擎起家的百度,却经常因排名竞价与SEO等原因被大众认为“不好用”,很多时候某一关键词下前四条后四条分别为竞价搜索,中间两条再加上百度百科、百度图片与百度知道,搜索首页完全成了百度一家产品的大杂烩。而且在一些想要搜索音频内容、视频内容以及3D内容时,传统搜索引擎都显得十分力不从心。
做一款好用的搜索引擎究竟有多难?从各头部互联网品牌纷纷效仿百度布局搜索引擎市场可以简单看到两点:
1.搜索引擎市场庞大,字节、阿里、腾讯并未与初创公司拉开较大差距;
2.用户习惯已经形成,即便字节、阿里、腾讯级别企业投入大量资源也难以改变现有市场格局。
市场在搜索领域可以说既给了初创公司足够的机会,却没有留给初创企业足够的空间。以极纳科技(下简称“极纳”)为代表的一批初创企业却在神经搜索框架的开发中看到了新的商机。
传统搜索模式为关键字搜索,无论用户希望搜索到何种结果,都需要先在脑海中先将所需内容以文字表现出来,再进行搜索,因此搜索结果很难保证与所需内容达成适配。为此百度也推出了“百度识图”,各家音乐平台也推出了听歌识曲等产品。但其推广程度远不如核心文字搜索引擎,且随着内容维度的丰富,视频材料、3D场景材料的搜索目前市场中仍缺少对应产品。
极纳则瞄准这一市场,推出了多模态开源神经搜索框架。区别于传统的关键字匹配搜索引擎,神经搜索通过神经网络、深度学习去匹配输入内容与数据库中内容的相关性,从而提供并排序搜索结果。
大鱼|大鱼: 以图搜图、以视频搜视频,「神经搜索」比关键词搜索更高效?
文章插图
本文图片来源与极纳科技,经授权使用
神经搜索最直接的优势在于语义差的消除,以文字内容为例,如搜索“三年时间北京房价浮动变化”传统搜索引擎会将语句拆分,“三年时间”可能搜索到一大批结果,“北京房价”又是一大堆结果,最后结果累计查询到的内容可能多达上百万,甚至包含大量的房屋楼盘广告。而搜索者想看到的可能仅仅是北京房价在过去三年时间内的变化趋势。而神经网络下,可将我们想搜索的内容与查询到的结果映射到同一语义空间中,以消除语义差。
除此之外,神经搜索甚至可以普及到更多方面,包括以图搜图、以视频搜视频乃至跨模态的搜索。在神经搜索框架下,仅需一张剧照便可搜索到你想要的视频,而不是搜索到更多其他剧照,这便是神经网络的神奇之处。
从背后技术来讲,神经搜索不仅仅能够更有效地服务使用者,对于开发者而言,神经搜索也有独特的技术优势。目前市场上的以图搜图、以音搜音仍是将这些多媒体信息进行标签化处理后通过匹配标签找到搜索结果,而神经搜索的优势就在于不打标签,不去进行符号化的标签匹配,而是通过神经网络将所有特征映射到同一空间,在同一空间中进行相似意义的搜索。
极纳联合创始人&COO;何烜彬向创业邦表示:“随着媒体表现形式的不断延伸拓展,标签化的搜索模式在很多场景下已经无法满足用户的搜索需求。”以游戏开发工作者为例,许多需要进行3D渲染的场景,其素材是动态的、3D的,传统搜索引擎难以描述,进行2D截图也很难搜索到3D材料,而神经网络的跨模态搜索则可以顺利帮助开发者搜索到对应素材。