首页 > 教育学习 > 为什么 > 做文本挖掘是否需要了解自然语言处理？

做文本挖掘是否需要了解自然语言处理？
2012-01-19 18:56:55 来源：点击：

8 个答案

答案 1：
当然需要。既然是“文本挖掘”，自然语言处理最基本的功能点肯定都要做：新词发现、分词、词性标注、分类、自动提取标签、实体自动发现和识别。最基本的这些功能点做了之后，可以用统计方法完成简单文本挖掘应用，统计方法比如：TF/IDF、Map/Reduce、贝叶斯。再深入一些，就需要：聚类（层次聚类、SVM、VSM）、情感趋势分析。再想提高：语法分析、句式判断。但一般做到NLP最基本功能点+统计方法即可搞定一般的互联网应用。
答案 2：
关于郑钧的回答，我觉得涉及的点很好，但是有些知识不是很准确； map/reduce 是一种分布式计算的框架，TIIDF可以看作是一种特征表示方法；统计方法比较常用的包括，朴素贝叶斯，最大后验概率，EM算法,CRF(比如用于分词)等； SVM不是聚类方法，而是分类回归方法； VSM应该是vector-space-model吧，是向量空间模型，是文本表示的基本模型；常见的聚类方法分为两类，层次聚类和扁平聚类，扁平聚类的代表算法是经典的KMean算法。分类方法也用的很多，比如SVM和决策树。 NLP本身有一点比较特别的是语言模型；
答案 3：
肯定的，至于要懂到什么程度，取决于具体的应用。
答案 4：
可繁可简，复杂的可以做到用正则表达式去处理，当然中文不想英文那么规整；简单的就做关键字匹配就好了。
答案 5：
作文本挖掘需要学习NLP，因为你需要处理文本，提取出你感兴趣的信息。如果你对机器学习熟悉，学习statistical NLP还是比较容易的。另外，也需要补充一些语言学基础知识。
答案 6：
文本挖掘包括很多个自然语言处理的模块，如文本分类、文本聚类、文摘、关键词抽取等，所有这些的基础也是NLP的基础工作，包括分词、词性标注（很多现成工具）等。所以还是看一些NLP的基础工作，打好底子。不需要去实现，但需要了解，然后根据具体应用运用相应的底层工具就好。
答案 7：
首先，肯定是需要的。最基本要做到：新词发现、词频统计、聚类、分类、文本摘要及关键词提取、文档去重、全文检索等等。
答案 8：
贵不在多，首先在于能真正了解文本挖掘的过程，以及中间涉及到的技术及应用场合。然后根据你的需求，对其中某一个分支领域（比如是特征抽取，还是句法分析等等）或者某一个算法（是贝叶斯还是SVM？）进行钻研...

QQ空间新浪微博腾讯微博人人网更多

做文本挖掘是否需要了解自然语言处理？
2012-01-19 18:56:55 来源：点击：

8 个答案

热门知识

教育学习 > 为什么 > 热点知识

本月热门知识

做文本挖掘是否需要了解自然语言处理？ 2012-01-19 18:56:55 来源： 点击：

8 个答案

热门知识

教育学习 > 为什么 > 热点知识

本月热门知识

做文本挖掘是否需要了解自然语言处理？
2012-01-19 18:56:55 来源：点击：