新聞中心
這里有您想知道的互聯(lián)網(wǎng)營銷解決方案
創(chuàng)新互聯(lián)Python教程:Python中Tf-idf文本特征的提取
說明

我們提供的服務有:成都網(wǎng)站建設、成都做網(wǎng)站、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認證、武江ssl等。為上千多家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務,是有科學管理、有技術的武江網(wǎng)站制作公司
1、TF-IDF是如果詞或詞組出現(xiàn)在文章中的概率較高,而在其他文章中很少出現(xiàn),那么它就被認為具有很好的類別區(qū)分能力,適合進行分類。
2、提取文本特征,用來評估字詞對文件集或某個語料庫中文件的重要性。
實例
def Tf-idf_demo():
"""
用tfidf的方法進行文本特征提取
:return:
"""
# 1.將中文文本進行分詞
data = ["一種還是一種今天很殘酷,明天更殘酷,后天很美好,但絕對大部分是死在明天晚上,所以每個人不要放棄今天。",
"我們看到的從很遠星系來的光是在幾百萬年之前發(fā)出的,這樣當我們看到宇宙時,我們是在看它的過去。",
"如果只用一種方式了解某樣事物,你就不會真正了解它。了解事物真正含義的秘密取決于如何將其與我們所了解的事物相聯(lián)系。"]
data_new = []
for sent in data:
data_new.append(cut_word(sent))
# print(data_new)
# 2.實例化一個轉換器類
transfer = TfidfVectorizer(stop_words=["一種", '因為'])
# 3.調用fit_transform
data_final = transfer.fit_transform(data_new)
print("data_new:\n", data_final.toarray())
print("特征名字:\n", transfer.get_feature_names())
return None以上就是python中Tf-idf文本特征的提取,希望對大家有所幫助。更多Python學習指路:創(chuàng)新互聯(lián)python教程
本文教程操作環(huán)境:windows7系統(tǒng)、Python 3.9.1,DELL G3電腦。
文章名稱:創(chuàng)新互聯(lián)Python教程:Python中Tf-idf文本特征的提取
標題URL:http://m.fisionsoft.com.cn/article/codghii.html


咨詢
建站咨詢
