首页 > 教育学习 > 为什么 > 做文本挖掘是否需要了解自然语言处理?

做文本挖掘是否需要了解自然语言处理?
2012-01-19 18:56:55   来源:   点击:

    做文本挖掘是否需要了解自然语言处理?做文本挖掘的话是不是懂一些NLP好一些,懂多少呢,越多越好?两者之间什么联系呢?

    8 个答案

    • 答案 1:

      当然需要。既然是“文本挖掘”,自然语言处理最基本的功能点肯定都要做:新词发现、分词、词性标注、分类、自动提取标签、实体自动发现和识别。最基本的这些功能点做了之后,可以用统计方法完成简单文本挖掘应用,统计方法比如:TF/IDF、Map/Reduce、贝叶斯。再深入一些,就需要:聚类(层次聚类、SVM、VSM)、情感趋势分析。再想提高:语法分析、句式判断。但一般做到NLP最基本功能点+统计方法即可搞定一般的互联网应用。
    • 答案 2:

      关于郑钧的回答,我觉得涉及的点很好,但是有些知识不是很准确; map/reduce 是一种分布式计算的框架,TIIDF可以看作是一种特征表示方法;统计方法比较常用的包括,朴素贝叶斯,最大后验概率,EM算法,CRF(比如用于分词)等; SVM不是聚类方法,而是分类回归方法; VSM应该是vector-space-model吧,是向量空间模型,是文本表示的基本模型;常见的聚类方法分为两类,层次聚类和扁平聚类,扁平聚类的代表算法是经典的KMean算法。分类方法也用的很多,比如SVM和决策树。 NLP本身有一点比较特别的是语言模型;
    • 答案 3:

      肯定的,至于要懂到什么程度,取决于具体的应用。
    • 答案 4:

      可繁可简,复杂的可以做到用正则表达式去处理,当然中文不想英文那么规整;简单的就做关键字匹配就好了。
    • 答案 5:

      作文本挖掘需要学习NLP,因为你需要处理文本,提取出你感兴趣的信息。如果你对机器学习熟悉,学习statistical NLP还是比较容易的。另外,也需要补充一些语言学基础知识
    • 答案 6:

      文本挖掘包括很多个自然语言处理的模块,如文本分类、文本聚类、文摘、关键词抽取等,所有这些的基础也是NLP的基础工作,包括分词、词性标注(很多现成工具)等。所以还是看一些NLP的基础工作,打好底子。不需要去实现,但需要了解,然后根据具体应用运用相应的底层工具就好。
    • 答案 7:

      首先,肯定是需要的。最基本要做到:新词发现、词频统计、聚类、分类、文本摘要及关键词提取、文档去重、全文检索等等。
    • 答案 8:

      贵不在多,首先在于能真正了解文本挖掘的过程,以及中间涉及到的技术及应用场合。然后根据你的需求,对其中某一个分支领域(比如是特征抽取,还是句法分析等等)或者某一个算法(是贝叶斯还是SVM?)进行钻研...

相关热词搜索:

上一篇:由感冒引发,到了晚上咳嗽厉害,喉咙发痒,是咳嗽变异型哮喘还是什么?
下一篇:知乎会为名人专家用户加 V 认证吗?你觉得需要吗?