博文

sklearn学习笔记

已有 5095 次阅读 2016-4-26 16:50 |系统分类:科研笔记| libsvm, 文本分类, sklearn

libsvm：

>>> y, x = svm_read_problem('label_Tfidf.txt')
>>> m = svm_train(y[:800], x[:800], '-c 5')
>>> p_label, p_acc, p_val = svm_predict(y[800:], x[800:], m)
Accuracy = 9.613% (929/9664) (classification)
>>> y, x = svm_read_problem('label_Tfidf.txt')
>>> m = svm_train(y[:8000], x[:8000], '-c 5')
>>> p_label, p_acc, p_val = svm_predict(y[8001:], x[8001:], m)
Accuracy = 0% (0/2463) (classification)

以下转载自http://www.wtoutiao.com/p/12dmN1i.html

import time
import re
import os
import sys
import codecs
import shutil
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
'''''
sklearn里面的TF-IDF主要用到了两个函数：CountVectorizer()和TfidfTransformer()。
CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵。
矩阵元素weight[i][j] 表示j词在第i个文本下的词频，即各个词语出现的次数。
通过get_feature_names()可看到所有文本的关键字，通过toarray()可看到词频矩阵的结果。
TfidfTransformer也有个fit_transform函数，它的作用是计算tf-idf值。
'''
if __name__ == "__main__":
corpus = [] #文档预料空格连接
#读取预料一行预料为一个文档
for line in open('BaiduSpider_Result.txt', 'r').readlines():
print line
corpus.append(line.strip())
#print corpus
time.sleep(5)
#将文本中的词语转换为词频矩阵矩阵元素a[i][j] 表示j词在i类文本下的词频
vectorizer = CountVectorizer()
#该类会统计每个词语的tf-idf权值
transformer = TfidfTransformer()
#第一个fit_transform是计算tf-idf 第二个fit_transform是将文本转为词频矩阵
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
#获取词袋模型中的所有词语
word = vectorizer.get_feature_names()
#将tf-idf矩阵抽取出来，元素w[i][j]表示j词在i类文本中的tf-idf权重
weight = tfidf.toarray()
resName = "BaiduTfidf_Result.txt"
result = codecs.open(resName, 'w', 'utf-8')
for j in range(len(word)):
result.write(word[j] + ' ')
result.write('rnrn')
#打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重
for i in range(len(weight)):
print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"
for j in range(len(word)):
result.write(str(weight[i][j]) + ' ')
result.write('rnrn')
result.close()

转载本文请联系原作者获取授权，同时请注明本文来自吴小兰科学网博客。
链接地址：https://blog.sciencenet.cn/blog-668239-972924.html

上一篇：请教：自然科学基金委分类号与哪个分类法体系最为接近？
下一篇：可加工的云图

收藏 IP: 117.89.118.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

吴小兰

扫一扫，分享此博文

wuxiaolananhui的个人博客分享 http://blog.sciencenet.cn/u/wuxiaolananhui

博文

sklearn学习笔记

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

吴小兰

全部作者的其他最新博文

全部精选博文导读

相关博文

wuxiaolananhui的个人博客分享 http://blog.sciencenet.cn/u/wuxiaolananhui

博文

sklearn学习笔记

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

吴小兰

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)