推荐,即推举,举荐,指把“好”的人或事物介绍给别人或组织,希望能够被接受或任用。其本意重点指人的推荐,古今中外,大抵如此。《汉书·王莽传上》说“收赡名士,交结将相卿大夫甚众。故在位者更推荐之”。杜甫的《送魏司直充岭南掌选崔郎中判官》诗有云“才美膺推荐,君行佐纪纲”。现如今申请海外留学,尤其是美国的学校,推荐信(recommend letter)是很重要的,一封好的推荐信能够让对方更全面的了解自己,更具竞争力。为了让老师们把自己的推荐信写的多姿多彩,不仅要努力拿个好的GPA,还得跟各位老师多套近乎,在各方面充分的展示自己的风采。
推荐的核心在于一个“好”字。不论是人还是事物,大家都希望选择一个好的,但是由于受到成本或知识局限性等原因,通常没法在充分了解之后再决策,这时就需要有对这些人或事物比较了解的人给出参考意见,辅助决策。古代针对人的推荐基本上都是case by case的:首先得有个坑,然后找人问问有哪些萝卜合适这个坑,综合判断一下,差不多就完事了。当然也有一些不是那么case by case的,比如媒婆。媒婆手上通常有一票男女,没事的时候根据双方的情况点点鸳鸯谱。有良心的媒婆追求的是成功率--配对的时候看看是不是门当户对,有没有尽量满足双方的要求;没有良心的媒婆追求的是自己的收益,不关注男女是否合适,只关心自己的收益,配对的时候优先考虑自己能从中捞到多少好处。这就很有点推荐引擎的味道了:有物品、有用户、有优化的原则,推荐引擎的几个要素基本上都具备了。可以这么讲,媒婆就是一种人肉推荐引擎。
这种原始的人肉推荐引擎度过了漫长的岁月,直到今天依然存在,当然受到的冲击也不小,除了边鄙之地,如今人们已经不太依赖媒婆来找对象了,有了更方便好用的工具:各种婚介网站。从本质上说,婚介网站做的事情和媒婆做的然而并没有什么卵,呃,不同,各种被荷尔蒙或者封建家长刺激的痛不欲生的男女希望能在这里找到人生的另一半。既然是个网站,可娶/可嫁的男女规模必然远远超过媒婆,要想在这么多可能的另一半中找出Mr/Mrs Right的难度自然也就大了许多。
婚介网站为了吸引更多的用户,增强用户体验是必须的。既然用户面临信息过载的问题,自然要提供解决的办法,办法有不少,大体上不外乎两类:主动的搜索,和被动的推荐--大数据三大王牌应用之二,另外一个是计算广告。这三大王牌应用有很多地方是相通的,比如数据越多活的越滋润,能够自我学习和调优,这也正是机器学习的优势。三大王牌应用各自有适合的场景,比如对婚介网站来说,搜索适合对自己的需求很了解的用户,推荐更适合那些目的性不是太强的用户,这两者都能增强用户体验,吸引更多的用户;而广告,则是网站流量变现的主要手段,是网站得以生存的必备技能。
搜索和广告这两大应用都有相当成熟的技术方案了,大公司一方面有丰富的数据,另一方面有大量的专业人才,优势明显,越来越呈现集中化的趋势。而推荐则不然,不同业务的个性化程度很高,虽然总的要求都是为用户推荐个性化的内容,但不同网站的数据质量参差不齐,数据的规模也大小不一,数据量不足时在相当程度上还需要依赖运营的经验,不能完全算法化,这些都导致目前大部分推荐业务都是case by case的:辛辛苦苦开发了一套推荐引擎,换了一个业务可能就不能用了。这些都是制约推荐引擎进一步推广的重要因素。
从今天起,我们会在大约两个月的时间内陆续刊登系列连载,从推荐系统概述开始,从架构、算法、生产和效果优化等各个方面对推荐引擎的里里外外进行详细的介绍。为了让大家能更快更好的理解推荐引擎,在介绍推荐引擎一般技术的同时会结合阿里云推荐引擎(http://data.aliyun.com/product/re)进行实战说明,欢迎大家关注!