在UDS-SJTU联合实验室关于自然语言处理技术的演讲
UDS-SJTU 联合实验室(德国萨尔州大学和上海交通大学的联合实验室)邀请我做一场语言技术的演讲。我简要介绍了我们如何基于已有的服务和数据上面构建Totuba研究平台。 成为一个AI研究者真是令人兴奋:这需要感谢Linked Open Data Initiative 将巨大的机器可以处理的数据公开在网络上了;还有一些相似让复杂的文本处理成为可能的网络服务,例如OpenCalais,一个抽取文本的主题的网络服务。 简单的说,这些意味着我们能够复用这些工具和数据为Totuba快速构建一个原型,而这样的工作在数年以前还是令人望而却步的昂贵。
我认为在研究或者商业应用中都应当鼓励复用,这能够给我们带来好处。下面是我的演讲PPT:语义网研究平台的一个快速原型 。
下面简要介绍一下其他人的演讲内容。
Hans Uszkoreit教授展示了混合机器翻译,结合了统计机器翻译和基于规则机器翻译这两种最好的机器翻译算法。统计系统在封闭领域中是较好的机器翻译算法,如果在开放领域则是基于规则的系统更好。混合机器翻译算法的主要思想是,将基于规则翻译的短语替换成统计机器翻译的短语。Uszkoreit教授还展示了EuroMatrix项目,一个针对欧洲语言的翻译竞赛。
徐飞玉则介绍了如何使用“种子”从文本中抽取信息,种子(例如ElBaradei, Nobel prize, peace, 2005) 能够帮助找到相似的信息。她展示了选择正确的种子的重要性,以及负面种子(例如nominated, Noble Prize)能够改进准确率(但是召回率有所下降)。

原文链接:
最新评论