查看原文
其他

蝉游记的冷启动

2017-02-08 产品犬舍

很多人问我,蝉游记当年是怎么冷启动的。

游记产品的冷启动太他妈难了。

写游记本身是件极低频次,极高成本的事情,还需要充足的“情绪”来酝酿,通常只在旅行刚刚结束后有这样的情绪,时间窗口极短一瞬间。并不是说我上去一拉,人家就给个面子来写篇游记好吗——谁给你这么大的面子,花4-8个小时跑来素昧平生的新网站写游记?凭什么?

何况蝉游记网站的创新交互有一点学习成本,上手还需要一定的耐心。

一开始,我们的运营团队收集了近千个种子用户名单,挨个去拉,成功率近乎于0。崩溃了。

然后去微博上搜索“刚结束旅行”的用户拉人,成功率还是近乎于0。再次崩溃了。

因为我的个人风格,再加上天使轮确实也没什么钱,当时没用钱开路,也就是不用现金奖励,这个奖励那个奖励去吸引用户来写游记,硬拉的下场极惨,差点挂在这里。

我只好动用萌系产品技能,做了一个过渡产品叫“旅行推”。

旅行推这个网站呐,只做一件事,抓取“正在旅行中的人”,所发的“关于这次旅行的微博”,按目的地展示出来,样式是烂大街的瀑布流。这件事情的难点在于,如何鉴定这是一条旅行分享微博?

我好想去巴黎哦算不算?
我家住在巴黎公社小区算不算?
我买了个包牌子是香榭丽算不算?

当然不算。必须得是正在旅行中的人,在旅行中实时发送的,与这次旅行相关的微博才算。

到现在为止,似乎只有旅行推做到了这一点。

我设计了一套算法,过滤掉脏数据,仅保留有效数据,后来又加入了另外9道过滤规则,以及不断调试关键字库,最后达到了惊人的……97%有效率。

抓取100条微博,目测97条有效。

这样做,目的地必须限制在典型的“旅行目的地”,以国外为主,国内则是西藏,新疆,内蒙这种微博用户较少的地区。厦门,成都,杭州都不行,北上广更不行。即便有此限制,抓取数量也达到了每天3000条左右,相当于每天发现2000个以上的,有记录和分享意愿的中长途旅行用户。

神奇的抓取引擎默默地跑了半年,直到新浪修改搜索算法,抓取失效为止,大约抓了30万目标用户过来。然后我们就一个个去勾搭吗?

Too young, too simple, sometimes naive.

蝉小队的运营妹子设计了一套神奇的自动对话机制,印象里大约是这样的:

机器人评论:在吗?
对方:在(不管回答什么,都触发下一条评论)
机器人评论:我们是一个年轻的创业团队,有一个不情之请。
对方:xxxxx(不管回答什么,都触发下一条评论)
机器人评论:邀请你来写游记blablabla
机器人评论:邀请你来写游记blablabla
(这里专门拆成2条评论发,更接近真人对话风格)
对方:xxxxx(不管回答什么,机器人再无回复)

直到机器人关停三年后的今天,还能遇到有人跟我说,你们的运营人员曾经在微博上拉过我写游记,当时太忙,不好意思没来哦。

我:呵呵,呵呵呵呵,呵呵呵呵呵呵,不客气不客气。

在我的记忆里,只有一两个人识破了这个机器人谜题,其他人受到了狡猾的蒙蔽……于是,30万目标用户+不知厌烦的机器人,完成了蝉游记的冷启动。

曾经,我曾经想公开这套微博过滤算法,仅仅因为“嘚瑟”。但既然我还在做旅行产品,终归是不方便搬起石头砸自己的脚。哪一天我不做旅行产品了,再公开算法吧。

………………
………………
………………
………………
………………

上面这部分是2015年8月写的,一年后,我还真他妈放弃了旅行赛道,也就兑现承诺公开了算法。


关键是四个字:“两次命中”。

首先,为每个目的地建立一个知名景点库。

当用户5天内发布的微博中,至少2条提到同一个目的地的入库景点,我就认为他正在旅行中。

说穿了是不是简单到哭出来?

还有很多附属规则。比如说,国内用户常居的旅行城市是不能抓的,比如杭州和西安,但西藏和丽江可以。又比如说,还要建立一个黑名单,把“凡尔赛花园”这种拿国外景点来装逼的楼盘名称给过滤掉,人工建黑名单花了我很多的时间。

类似的过滤规则有十几道,十几道啊十几道。调试到最后能做到97%的准确率,判断谁谁谁正在旅行中——当然是中长途旅行目的地,恰好和蝉游记的定位一致。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存