英文评论文本特征embeddingpython

2个回答默认排序1

默认排序

按时间排序

瓦哈哈

已采纳

挖掘与文本分类的有关问题中，常采用特征选择方法。原因是文本的特征一般都是单词(term)，具有语义信息，使用特征选择找出的k维子集，仍然是单词作为特征，保留了语义信息，而特征提取则找k维新空间，将会丧失了语义信息。

英文评论文本特征embeddingpython

115 评论（14） 2小时前发布

lulijun

我感觉用nltk 处理中文是完全可用的。其重点在于中文分词和文本表达的形式。中文和英文主要的不同之处是中文需要分词。因为nltk 的处理粒度一般是词，所以必须要先对文本进行分词然后再用nltk 来处理（不需要用nltk 来做分词，直接用分词包就可以了。严重推荐结巴分词，非常好用）。中文分词之后，文本就是一个由每个词组成的长数组：[word1， word2， word3…… wordn]。之后就可以使用nltk 里面的各种方法来处理这个文本了。比如用FreqDist 统计文本词频，用bigrams 把文本变成双词组的形式：[(word1， word2)， (word2， word3)， (word3， word4)……(wordn-1， wordn)]。再之后就可以用这些来计算文本词语的信息熵、互信息等。再之后可以用这些来选择机器学习的特征，构建分类器，对文本进行分类（商品评论是由多个独立评论组成的多维数组，网上有很多情感分类的实现例子用的就是nltk 中的商品评论语料库，不过是英文的。但整个思想是可以一致的）。另外还有一个困扰很多人的Python 中文编码问题。多次失败后我总结出一些经验。Python 解决中文编码问题基本可以用以下逻辑：utf8（输入） ——> unicode（处理） ——> （输出）utf8Python 里面处理的字符都是都是unicode 编码，因此解决编码问题的方法是把输入的文本（无论是什么编码）解码为（decode）unicode编码，然后输出时再编码（encode）成所需编码。由于处理的一般为txt 文档，所以最简单的方法，是把txt 文档另存为utf-8 编码，然后使用Python 处理的时候解码为unicode（decode('utf8')），输出结果回txt 的时候再编码成utf8（直接用str() 函数就可以了）。

236 评论（15） 3小时前发布

英文评论文本特征embeddingpython

2个回答默认排序1

默认排序

按时间排序

相关问答

文章推荐

黑龙江大学论文外审多少分算是过

论文指导老师写哪里好点

英语论文研究问题要写多少页才行

怎样做好自己作文800字议论文

时政小论文最新版范文

英语论文的页边距

热门文章

论文选题的核心概念怎么写啊

关于新型城镇化的论文参考文献

关于新疆论文题目大全初中

道德在社会中的作用论文摘要

初中生小论文格式模板及范文大全

毕业论文工作自我评价怎么写好

英文评论文本特征embeddingpython

2个回答 默认排序1 默认排序 按时间排序

相关问答

文章推荐

黑龙江大学论文外审多少分算是过

论文指导老师写哪里好点

英语论文研究问题要写多少页才行

怎样做好自己作文800字议论文

时政小论文最新版范文

英语论文的页边距

热门文章

论文选题的核心概念怎么写啊

关于新型城镇化的论文参考文献

关于新疆论文题目大全初中

道德在社会中的作用论文摘要

初中生小论文格式模板及范文大全

毕业论文工作自我评价怎么写好

2个回答默认排序1

默认排序

按时间排序