明复(MINFO)的自然语言搜索之路
明复从一开始就选择了自然语言搜索来启动它的无线搜索战略,与其是说为了表现出一种与其它无线搜索厂商的不同,还不如说是为了迎合目前中国手机用户最普及的使用方法——手机短信。5亿手机用户中的大部分用户不知道什么是关键字,再加上目前中国手机短信的限制是70个汉字,因此采用自然语言输入和直接返回简短答案(而不是链接)的无线搜索是最适合目前中国老百姓的模式。明复在这一点上无疑是最聪明,虽然其同时也提供WAP/IM/手机客户端等不同的访问方式,但是短信访问方式的访问量是占到大头的。明复的这种自然语言理解的搜索接口+直接返回答案的方式是比较考虑手机用户使用体验的,因为在外使用手机搜索的用户很少有人有耐心去翻看那么多的链接去寻找一个符合他的答案,无线搜索用户想要的是一个真正的答案,这也是国外包括YAHOO ONE SEARCH在内的无线搜索产品的方向。然而这种模式成功的前提是你必须能够给用户真正想要的答案,如果你不能够给用户一个好的答案,还不如给用户一个选择的权利,显然明复离这个目标还比较远在他们的自然语言无线搜索之路上还有很多事情要做:
1、数据之痛:明复的大部分数据都是依靠维护人员通过各种渠道(包括第三方合作和主动寻找)进行手工维护的,此外也有提供给一般商户维护信息的接口,但这已经和传统意义上的搜索引擎通过SPIDER抓取信息的方式大相径庭了。如果没有通过计算机自动抓取网页或者WAP然后进行有用信息提取,明复在信息的丰富性上必将大打折扣,随着提供服务产品和地域的不断扩大,如何保证丰富信息即使有效的更新,仅靠人工显然不是办法?
2、排序的依据:既然明复的大部分数据是通过数据维护人员维护,那么传统意义上的类似PAGERANK的排序方式也就在这里不起作用了。随之的问题就是针对用户的搜索结果如何排序,排序的依据是什么?那些买关键字的商家和一般的中性信息如何区分排序?
3、没有考虑上下文的自然语言理解:明复目前的自然语言理解还是相当初级,一个很重要的问题就是处理时没有参考上下文的语境。一个简单的例子:
搜索“北京明天的天气如何?”,返回正常的结果。
接着搜索“后天呢?” 系统开始傻了。
这只是其自然语言理解中遇到的一个问题,需要解决的问题还很多。
如果不能够把以上三方面的问题解决好,明复在应对类似中国电信114这样的语音服务(或者说语音搜索)上就没有任何优势可言。114的优势不言而喻,除了品牌以外,其人工服务的自然理解方式,搜集本地信息的能力,以及强大的资金支持都是明复所不能匹敌的。


I know some wow gold in wow.
good