挖掘Twitter消息流的商机
原文地址(http://datamining.typepad.com/data_mining/2009/02/the-business-of-mining-the-twitter-stream.html)
当前,从Twitter 的数据中进行商业和市场信息的智能挖掘(包括趋势分析、意见挖掘、影响力分析)是一条引人注目的途径,是时候从客户的角度来考虑这样的服务了。一些企业跟该领域(在社会化媒体内容中进行商业智能挖掘)的服务提供商合作了5年多了,已经对这些服务的特性和报告质量有一些具体的可操作的期望。
* 全领域覆盖: 解决方案的主题空间是否覆盖得足够广泛?抓取所有的数据源才能赢得客户。
* 人群覆盖: 解决方案的人群覆盖面是否足够广泛?能否通过对内容的人群特性判断出作者?准确性如何?
* 文本挖掘: 解决方案能否从非结构化文本中得到结构化信息并将之作为更进一步挖掘的输入?考虑到从复杂多样的社会化媒体内容中进行文本挖掘的难度,一般这是一项应用研究。
* 时间线: 以多大的频率进行分析?这与数据采集的频率相关。以博客数据为例,得益于Feed机制,能够非常及时的采集。但是,通常说的实时采集其实可能是间隔4个小时的采集,而非每秒都采集。
如果Twitter的商业模型转向对消息流进行商业智能挖掘,那么它将与目前的该领域的一些提供商竞争,这些厂商目前采集巨量的数据,包括博客、用户组、评论、讨论组、邮件组等等。Seth Grimes 推测Twitter短文本流将使情感挖掘等很难的问题简化,因为作者必须在有限的字数内简洁的表达观点。尽管如此,这也是一柄双刃剑,基于短文本的分析将不够深入。
我相信对Twitter消息流进行挖掘将是一项激动人心的实验,但是Twitter需要覆盖更广的数据、或者跟其他厂商合作 (如 Visible Technologies). 事实上,这样的合作将确保建立分析引擎这样艰巨的任务不需要Twitter团队分心来完成,Twitter团队继续集中精力进行基础建设,以确保这一珍贵的数据流不至于断流。
最新评论