期刊问答网 论文发表 期刊发表 期刊问答
  • 回答数

    2

  • 浏览数

    286

wangheyang8860
首页 > 期刊问答网 > 期刊问答 > 英文评论文本特征embeddingpython

2个回答 默认排序1
  • 默认排序
  • 按时间排序

瓦哈哈

已采纳
挖掘与文本分类的有关问题中,常采用特征选择方法。原因是文本的特征一般都是单词(term),具有语义信息,使用特征选择找出的k维子集,仍然是单词作为特征,保留了语义信息,而特征提取则找k维新空间,将会丧失了语义信息。

英文评论文本特征embeddingpython

115 评论(14)

lulijun

我感觉用nltk 处理中文是完全可用的。其重点在于中文分词和文本表达的形式。中文和英文主要的不同之处是中文需要分词。因为nltk 的处理粒度一般是词,所以必须要先对文本进行分词然后再用nltk 来处理(不需要用nltk 来做分词,直接用分词包就可以了。严重推荐结巴分词,非常好用)。中文分词之后,文本就是一个由每个词组成的长数组:[word1, word2, word3…… wordn]。之后就可以使用nltk 里面的各种方法来处理这个文本了。比如用FreqDist 统计文本词频,用bigrams 把文本变成双词组的形式:[(word1, word2), (word2, word3), (word3, word4)……(wordn-1, wordn)]。再之后就可以用这些来计算文本词语的信息熵、互信息等。再之后可以用这些来选择机器学习的特征,构建分类器,对文本进行分类(商品评论是由多个独立评论组成的多维数组,网上有很多情感分类的实现例子用的就是nltk 中的商品评论语料库,不过是英文的。但整个思想是可以一致的)。另外还有一个困扰很多人的Python 中文编码问题。多次失败后我总结出一些经验。Python 解决中文编码问题基本可以用以下逻辑:utf8(输入) ——> unicode(处理) ——> (输出)utf8Python 里面处理的字符都是都是unicode 编码,因此解决编码问题的方法是把输入的文本(无论是什么编码)解码为(decode)unicode编码,然后输出时再编码(encode)成所需编码。由于处理的一般为txt 文档,所以最简单的方法,是把txt 文档另存为utf-8 编码,然后使用Python 处理的时候解码为unicode(decode('utf8')),输出结果回txt 的时候再编码成utf8(直接用str() 函数就可以了)。
236 评论(15)

相关问答