
柯林斯(Collins)是Marcus的高徒,现在在MIT任教。Collins在2003发表于《Computational Linguistics》上的论文《Head-Driven Statistical Models for Natural Language Parsing》中提出了三个头驱动统计模型,其实就是其1999年的博士论文的精简版。该模型在当时是性能最好的句法分析模型。
柯林斯的头驱动统计模型,本质上属于基于历史模型,论文中该模型用于句法分析。句法分析的输入是词性标注过的句子,输出则是具有句法结构标注的句子,其结构可用句法树来表示。句法树有很多种,根据算法不同有不同的选择。句法树的构建过程就是一个决策序列,决策序列与句法树是一一对应的。句法分析的文法模型,总体来说有概率上下文无关模型(PCFG)、词汇概率上下文无关模型(Lexicalized PCFG,以下简称L-PCFG)、基于规则模型,应用得最广泛的是概率上下文无关模型。PCFG模型简单有效,但其独立性假设忽略了很多可以利用的信息,性能上不及L-PCFG模型,而柯林斯正是在L-PCFG模型基础上改进,利用了更多信息,提出了用于句法分析的头驱动统计模型,因此准确率达到了当时最高峰,但实现就比PCFG复杂了许多。
其第一个模型中,修改了L-PCFG的独立性假设,将规则概率的计算公式简化为一个个小的句法标注符概率的乘积,这个步骤不仅复杂度得到降低,而且大大缓解了数据稀疏问题。其后,又在模型中加入了距离信息,使得该模型的性能一举超越其他模型。
柯林斯在这时并没有满足,而是继续在第一个模型基础上,加入了补语分类信息,形成了第二个模型。在很多时候,补语的结构容易被错误标注,这都是由于补语结构没有另外的标注符号,导致统计模型中不能区分,从而导致误标注。柯林斯对语料库进行了改造,加入了新的标注符号,区分补语结构,并在规则概率计算公式中加入对补语结构概率的计算。该模型能够区分补语结构,从而降低了误标注率,性能进一步提升。
Read more…

原文链接:http://www.intelligententerprise.com/blog/archives/2009/06/summer_reading.html
夏天缓慢的节奏让我们可以通过阅读度过平静的一天。你的阅读计划是什么呢?我的阅读计划包括各种论文和对信息搜索、情感分析和可视化的长期工作。在我的列表上的都是技术性的和入门级的(也不能算容易),任何从事分析工作并有潜在兴趣的人都可以阅读。我已经记录下来而且计划进行深入阅读。TechWeb读者可能会觉得它们至少值得阅读一下。
Read more…
原文链接:http://datamining.typepad.com/data_mining/2009/05/a-unifying-framework-for-social-media-research.html
现在我们可以从 ICWSM 得到各种社会媒体研究的最新进展,包括:文本挖掘,人工智能(偏向NLP/CompLing),心理学,图算法,社会网络理论,数据可视化/UI设计和数 据挖掘。这个会议的主要目的是将这些领域的研究成果融合以建立更好的模型, 支持和使用社会化媒体。为了完成这个目标,我们需要明确基于什么来融合。当然,可以将这些研究领域的联系画一张全连通图,但在那之前我们至少要识别一些关 键的联系。
心理学和文本挖掘
文本挖掘的大部分工作聚焦于文档,而现在我们主要关心社会化媒体——个体在社会化上下文中制造的文本。个体和社区在哪里呢? 理解观点需要建立是观点是什么的模型、观点的心理过程(我们怎么改变观点?)等。文档没有观点,人有观点。
文本挖掘和社会网络
Read more…
原文链接:http://www.expresscomputeronline.com/20090518/market08.shtml
Soumendra Mohanty是埃森哲印度商业智能与数据仓库的部门经理,他跟 Varun Aggarwal 交流了使用BI(商业智能)的好处和一些最佳工业实践。
BI怎么帮助一家公司贴近它的客户呢?
BI主要目的是评估和监测业务,而客户是任何业务的核心。BI帮助理解客户想要什么,他们的习惯,他们倾向于什么,他们为什么会成为或不成为客户 。今日的商业已经是围绕多样性和全球化,BI变得更为重要了。
你能为一些正经历经济衰退和需要以客户为中心的企业给出建议吗?
Read more…
原文地址(http://datamining.typepad.com/data_mining/2009/02/the-business-of-mining-the-twitter-stream.html)
当前,从Twitter 的数据中进行商业和市场信息的智能挖掘(包括趋势分析、意见挖掘、影响力分析)是一条引人注目的途径,是时候从客户的角度来考虑这样的服务了。一些企业跟该领域(在社会化媒体内容中进行商业智能挖掘)的服务提供商合作了5年多了,已经对这些服务的特性和报告质量有一些具体的可操作的期望。
* 全领域覆盖: 解决方案的主题空间是否覆盖得足够广泛?抓取所有的数据源才能赢得客户。
* 人群覆盖: 解决方案的人群覆盖面是否足够广泛?能否通过对内容的人群特性判断出作者?准确性如何?
* 文本挖掘: 解决方案能否从非结构化文本中得到结构化信息并将之作为更进一步挖掘的输入?考虑到从复杂多样的社会化媒体内容中进行文本挖掘的难度,一般这是一项应用研究。
* 时间线: 以多大的频率进行分析?这与数据采集的频率相关。以博客数据为例,得益于Feed机制,能够非常及时的采集。但是,通常说的实时采集其实可能是间隔4个小时的采集,而非每秒都采集。
如果Twitter的商业模型转向对消息流进行商业智能挖掘,那么它将与目前的该领域的一些提供商竞争,这些厂商目前采集巨量的数据,包括博客、用户组、评论、讨论组、邮件组等等。Seth Grimes 推测Twitter短文本流将使情感挖掘等很难的问题简化,因为作者必须在有限的字数内简洁的表达观点。尽管如此,这也是一柄双刃剑,基于短文本的分析将不够深入。
我相信对Twitter消息流进行挖掘将是一项激动人心的实验,但是Twitter需要覆盖更广的数据、或者跟其他厂商合作 (如 Visible Technologies). 事实上,这样的合作将确保建立分析引擎这样艰巨的任务不需要Twitter团队分心来完成,Twitter团队继续集中精力进行基础建设,以确保这一珍贵的数据流不至于断流。
最新评论