Archive for 03月, 2009
reuters-21578及相关软件
http://ronaldo.cs.tcd.ie/esslli07/
http://www.comp.nus.edu.sg/~rpnlpir/
http://www.cs.technion.ac.il/~ronb/datasets/
http://www.cs.cmu.edu/~hustlf/
http://cpansearch.perl.org/src/KWILLIAMS/
www.cs.umb.edu/~smimarog/textmining/datasets/index.html
A Block-Based Robust Dependency Parser for Unrestricted Chinese Text
http://www.aclweb.org/anthology-new/W/W00/W00-1212.pdf
论文提出了一种基于块的句子解析器构造方法
根据汉语语言规则先将句子分成成份块,块被归纳为NP,UP,UG,NTL, NTP,AP, FP,VP,IP,LP,DP等类型,对于LP和DP块根据其特性可能要递归的进行分块解析处理;然后再在块的层次上解析它们之间的相依关系,相依关系使用三元组表示D={< 1 1 1 , , rela dep gov >,< 2 2 2 , , rela dep gov >,…< m m m rela dep gov , , >},相依关系可归纳为1SUB, 2OBJ1, 3OBJ2, 4COMP, 4, NUM, 5TOP, 6ADVN, 7ADVF, 8QT, 10HT, 11PUNC, 12PIVT, 13SOC, 14VAA, 15VAB, 16G, 17LOG。
本人收获:此方法有效降低了句子解析的复杂度,使句子解析在句子与词之间找到一种中间层次的降低复杂性的方法,使汉语句法规则得以有效运用。一方面研究任务可以分解,另一方面使句子翻译可以从块和句子结构两个层面去组织。
此方法在遇到解析错误时如不合逻辑,可以部分发现分词错误或在语意歧义时运用统计方法纠正歧义,可以用来在性能要求不是很高的场合通过回塑纠正分词错误。
进一步可以运用到特别领域的自然语言处理问题,如情感识别,不良信息识别
未找到论文
Organization Name Extraction for Chinese Using C-Value and Window-Based Mutual Information
http://www.nactem.ac.uk/publications.php
