NLP
计算机辅助书写
汉字转各类拼音 http://pinyin4j.sourceforge.net/html/demo.html
基于条件随机场的古文自动断句与标点方法
基于条件随机场的古文自动断句与标点方法
还有一篇:一种基于层叠CRF的古文断句与句读标记方法
NLP软件
*NLP Toolbox
CLT http://complingone.georgetown.edu/~linguist/compling.html
GATE http://gate.ac.uk/
Natural Language Toolkit(NLTK) http://nltk.org
MALLET http://mallet.cs.umass.edu/index.php/Main_Page
OpenNLP http://opennlp.sourceforge.net/
*English Stemmer
Snowball http://snowball.tartarus.org/
*English POS Tagger
Stanford POS Tagger http://nlp.stanford.edu/software/tagger.shtml
TreeTagger http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
TnT http://www.coli.uni-saarland.de/~thorsten/tnt/
*English&Chinese Parser
Stanford Parser http://nlp.stanford.edu/software/lex-parser.shtml
Berkeley Parser http://nlp.cs.berkeley.edu/Main.html#Parsing
*English Keyphrase Extractor
KEA http://www.nzdl.org/Kea/index_old.html
*English Name Entity Recognizer
Stanford NER http://nlp.stanford.edu/software/CRF-NER.shtml
*Chinese Word Segmentator
中科院ICTCLAS http://www.nlp.org.cn/project/project.php?proj_id=6
Stanford Word Segmenter http://nlp.stanford.edu/software/segmenter.shtml
*Topic Modeling Tools
Matlab http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm
GibbsLDA++ http://gibbslda.sourceforge.net/
GLDA http://code.google.com/p/glda/
*Conditional Random Fields
FlexCRFs http://flexcrfs.sourceforge.net/ 含有MPI并行版本。
CRF++ http://crfpp.sourFceforge.net/
CRF Package http://crf.sourceforge.net/
CRF Matlab http://www.cs.ubc.ca/~murphyk/Software/CRFall.zip
CRFSuit http://www.chokkan.org/software/crfsuite/
SGD with CRF http://leon.bottou.org/projects/sgd
HCRF […]
Federated Access Control and Workflow Enforcement in Systems Configuration
最佳论文:论文关于系统配置改变
其实一直以来也有类似想法,在解决统一数据库问题上,如果能通过配置途径解决企事业单位信息的个性化问题,是值得研究的。
国际会议
CoNLL-2009 http://ufal.mff.cuni.cz/conll2009-st/index.html
中文分词标注
资料:
http://groups.google.com/group/ictclas/files
CRF工具包
z http://crf.sourceforge.net/doc/
java写的CRF工具包,有很详细的说明文档。
z FlexCRFs: Flexible Conditional Random Fields
作者:Xuan-Hieu Phan 和 Le-Minh Nguyen
C++语言实现
下载地址:http://www.jaist.ac.jp/~hieuxuan/flexcrfs/flexcrfs.html
z CRF++: Yet Another CRF toolkit
C++语言实现,有windows下运行的exe程序以及Linux下运行
的版本
下载地址:http://chasen.org/~taku/software/CRF++/#features
香港城市大学赵海http://bcmi.sjtu.edu.cn/~zhaohai/index.ch.html
詹卫东(VC++源码)http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
情感分析及观点挖掘,含摘要
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html(开源框架)
classification
named entity recognition
clustering
part of speech
sentences
spelling correction
string comparison
significant phrases
character language models
medline parsing
database text mining
chinese word segmentation
hyphenation and syllabification
sentiment analysis
language identification
word sense disambiguation
singular value decomposition
logistic regression
expectation maximization
http://www.cs.ubc.ca/~carenini/storage/SEA/demo.html
http://www.cs.uic.edu/~liub/
http://data.semanticweb.org/papers
reuters-21578及相关软件
http://ronaldo.cs.tcd.ie/esslli07/
http://www.comp.nus.edu.sg/~rpnlpir/
http://www.cs.technion.ac.il/~ronb/datasets/
http://www.cs.cmu.edu/~hustlf/
http://cpansearch.perl.org/src/KWILLIAMS/
www.cs.umb.edu/~smimarog/textmining/datasets/index.html
A Block-Based Robust Dependency Parser for Unrestricted Chinese Text
http://www.aclweb.org/anthology-new/W/W00/W00-1212.pdf
论文提出了一种基于块的句子解析器构造方法
根据汉语语言规则先将句子分成成份块,块被归纳为NP,UP,UG,NTL, NTP,AP, FP,VP,IP,LP,DP等类型,对于LP和DP块根据其特性可能要递归的进行分块解析处理;然后再在块的层次上解析它们之间的相依关系,相依关系使用三元组表示D={< 1 1 1 , , rela dep gov >,< 2 2 2 , , rela dep gov >,…< m m m rela dep gov , , >},相依关系可归纳为1SUB, 2OBJ1, 3OBJ2, 4COMP, 4, NUM, 5TOP, 6ADVN, 7ADVF, 8QT, 10HT, 11PUNC, 12PIVT, 13SOC, 14VAA, 15VAB, 16G, 17LOG。
本人收获:此方法有效降低了句子解析的复杂度,使句子解析在句子与词之间找到一种中间层次的降低复杂性的方法,使汉语句法规则得以有效运用。一方面研究任务可以分解,另一方面使句子翻译可以从块和句子结构两个层面去组织。
此方法在遇到解析错误时如不合逻辑,可以部分发现分词错误或在语意歧义时运用统计方法纠正歧义,可以用来在性能要求不是很高的场合通过回塑纠正分词错误。
进一步可以运用到特别领域的自然语言处理问题,如情感识别,不良信息识别
文本聚类
基于文本聚类和权重调整的用户兴趣建模算法
http://www.xactad.org/qikan/2007-02/070238.pdf
