十一点出头,孟晓琴给路舟叫来了微讯微头条小组的组长。

人路舟是记得,陈东卓,去年下半年微讯hr扩招时从飞信挖来的项目经理,在此前的工作中路舟同他是有过一些接触。

“路总。”

“稍等片刻。”

路舟先是将手头上的邮件检阅了发送出去,随后便说道,“微头条内部立项也有一段时间,文档我也看了,但我本身对一些东西是存有疑问,所以想和卓哥你沟通一下。”

陈东卓,“路总您讲。”

路舟,“首先公众号和微头条是两款截然不同的产品形态。公众号的大部分功能是根据我所提出的要求进行设计,而微头条这是老程本身的想法。

公众号基于用户喜好和行为,微头条则是用户和资讯间的自动匹配。

所以,尽管现在公众号也归入你们小组进行日常维护,但在两个产品上你需要做好区分。”

陈东卓,“明白。目前我们仍然是按照程旭元的意思,工作仍然是先以公众号为主,微头条还处于讨论阶段,相应的设计和设想正在逐步完善。”

路舟递给了陈东卓一份文件,“这是我在你们基础上修改的版本,电子档也已经发到了你的邮箱。”

随后他又接着说道,“内容信息整合成流,这个想法应该不属少见。

从千度筛选收录,到博客微博的关注,再到朋友圈产品形态,甚至说接下来的微头条,本质都是内容信息流。

微博基于关注关系,朋友圈基于现实关系和微讯内好友关系,但在内容呈现上,它的显示原则都遵循着时间轴线tile。

而微头条需要在时间轴线上加入一些影响因素,对整个信息流进行一个筛选重排。

整个推荐模型中,会有些可量化的数据,比如用户行为:点击率、点赞、评论转发;用户环境数据:地理位置、时间;热度特征:全局、分类和主题热度。

基于内容和用户进行匹配,这就是老程设想的创新性。当然,也不是说没人想到这个点子。不过开始做的人应该是不多。”

陈东卓微微点头,“这个我可以理解路总,但在实现上,我想是有比较大的问题。首先是初始启动,针对内容我们需要进行标签标注和分类,只有内容的训练模型ok了,我们才能够将内容和用户进行关联。”

路舟笑了笑,“这个你可以放心。数据源,梦谷是有人提供。在分类上,我们采用层次化的文本分类,比如大类科技、体育、财经,如体育再细分篮球足球,再一层层往下细分。

而你们需要将它不断细化和颗粒化,比如娱乐中最下层级甚至要具体到人,比如某明星之类。颗粒越小,标识度越高,那推荐效果自然更理想。

我想,杨密的用户应该很喜欢有她的八卦消息。”

陈东卓,“那么接下来?”

路舟,“既然内容分类层级有了,自然是文章内容输入到系统中,系统为每篇文章打上分类标签。

随着内容推送到用户眼前,客户端即可收集用户行为,比如根据他的点击、留存,进而判断他的喜好,这样用户标签也就有了。

而对初始用户而言,那就是首先选择喜好的大类,接着推送分类热度高的文章,再进一步收集用户行为。”

陈东卓听了显然是明白了许多,这可比盲头苍蝇到处乱撞要快上许多。

他显得有些兴奋,“明白路总!我这就下去安排。”

路舟,“别急。批量计算,目前微讯或者梦谷云是满足不了实时分析的要求,针对这点你需要单独进行一些设计。当然,短时间内是可以适当牺牲这部分需要。

至于算法方面,你让老程联系一下实验室,如果有新的成果进展可以做些大胆尝试。别怕出错,改就是。

数据的问题,我会安排人和你对接。”

陈东卓,“行。我这头先去联系和开展工作。”

说罢,这人就风风火火出了路舟的办公室。

“哎。又是一个急性子。”路舟摇头笑道。

口头上容易,实现总是麻烦。事情自然不可能只有路舟所说这么简单。

好比过滤“噪声”,剔除停留时间短的点击,打击标题党行为;好比时间衰减,越早的点击所带来的权重并非一成不变,而是需要动态变化和降权。

再好比批量计算数据量的问题。微讯或者梦谷内打击一些信息所进行的数据分析这都是隔三差五的任务,可对微头条而言,却需要每天都处理大批量的用户行为分析,着实在数据量级上越往后就势必越麻烦。

又好比考虑商业化,那内容和广告间的契合度问题,针对广告又需要进行一些标签分类处理。

不过这是轮不到路舟来困恼的活计,他也就不去操劳过多。微讯公众号已经做了的工作摆在那,而梦谷本身也有一系列的数据和技术上的支持,微头条要成事不难,只是能到什么程度则另说。

若陈东卓领导的小组够争气