亚洲欧美日韩成人_亚洲精品国产精品国产自_91精品国产综合久久国产大片 _女同久久另类99精品国产

神經(jīng)網(wǎng)絡(luò)文本分類大全11篇

時(shí)間:2023-05-31 14:59:15

緒論:寫(xiě)作既是個(gè)人情感的抒發(fā),也是對(duì)學(xué)術(shù)真理的探索,歡迎閱讀由發(fā)表云整理的11篇神經(jīng)網(wǎng)絡(luò)文本分類范文,希望它們能為您的寫(xiě)作提供參考和啟發(fā)。

神經(jīng)網(wǎng)絡(luò)文本分類

篇(1)

文本分類數(shù)是據(jù)挖掘的一個(gè)重要研究領(lǐng)域,國(guó)內(nèi)外的眾多學(xué)者已經(jīng)進(jìn)行了比較深入的研究,取得了不少研究成果。常見(jiàn)的文本分類技術(shù)有最小距離方法、樸素貝葉斯方法、KNN方法、支持向量機(jī)方法(SVM)、模糊c均值(FCM)算法和等,現(xiàn)在有很多學(xué)者把神經(jīng)網(wǎng)絡(luò)的方法應(yīng)用到分類算法中,在這些分類算法中,神經(jīng)網(wǎng)絡(luò)的文本分類更具有優(yōu)越的性能。袁飛云利用SOINN自動(dòng)產(chǎn)生聚類數(shù)目和保留數(shù)據(jù)拓?fù)浣Y(jié)構(gòu)的兩項(xiàng)能力,尋找更有效的單詞和設(shè)計(jì)更有效的編碼方式,提出了基于自組織增量神經(jīng)網(wǎng)絡(luò)(SOINN)的碼書(shū)產(chǎn)生方法;申明金利用自組織特征映射神經(jīng)網(wǎng)絡(luò)(SOM)以無(wú)監(jiān)督方式進(jìn)行網(wǎng)絡(luò)訓(xùn)練,具有自組織功能的特點(diǎn),利用自組織特征映射神經(jīng)網(wǎng)絡(luò)對(duì)不同產(chǎn)地金銀花進(jìn)行分類;彭俊等將不同空氣質(zhì)量等級(jí)下的各空氣指標(biāo)作為原型模式,通過(guò)輸入樣本模式,利用競(jìng)爭(zhēng)網(wǎng)絡(luò)的競(jìng)爭(zhēng)特點(diǎn)得到勝者,以此得出空氣質(zhì)量等級(jí);郝曉麗等通過(guò)篩選基于輪廓系數(shù)的優(yōu)秀樣木群,來(lái)尋找最佳初始聚類中心,并將該改進(jìn)算法用于構(gòu)造徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)分類器和快速有效地確定隱含層節(jié)點(diǎn)徑向基函數(shù)中心及函數(shù)的寬度,從而提高了分類精度;孫進(jìn)進(jìn)利用神經(jīng)網(wǎng)絡(luò)技術(shù)中的自組織映射SOM)網(wǎng)絡(luò)對(duì)我國(guó)主要機(jī)場(chǎng)進(jìn)行聚類分析評(píng)價(jià),得出我國(guó)主要機(jī)場(chǎng)分為8層的主要結(jié)論;劉艷杰在非監(jiān)督的自組織映射神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了一定的改進(jìn),構(gòu)建了有監(jiān)督的神經(jīng)網(wǎng)絡(luò)分類模型;李楊將神經(jīng)網(wǎng)絡(luò)與群體智能算法、云計(jì)算相結(jié)合的方法,實(shí)現(xiàn)對(duì)不同規(guī)模農(nóng)業(yè)數(shù)據(jù)集的分類,提出基于神經(jīng)網(wǎng)絡(luò)分類器的設(shè)計(jì)與優(yōu)化方法。而競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)的自組織、自適應(yīng)學(xué)習(xí)能力,進(jìn)一步拓寬了神經(jīng)網(wǎng)絡(luò)在模式分類和識(shí)別方面的應(yīng)用。競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)依靠神經(jīng)元之間的興奮、協(xié)調(diào)、抑制或競(jìng)爭(zhēng)的作用來(lái)進(jìn)行信息處理,可在訓(xùn)練中無(wú)監(jiān)督自組織學(xué)習(xí),通過(guò)學(xué)習(xí)提取數(shù)據(jù)中的重要特征或內(nèi)在規(guī)律,進(jìn)而實(shí)現(xiàn)分類分析的功能。

1競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)的描述

1.1競(jìng)爭(zhēng)型網(wǎng)絡(luò)的結(jié)構(gòu)

競(jìng)爭(zhēng)學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,該網(wǎng)絡(luò)具有R維輸入和s個(gè)輸出,由前饋層和競(jìng)爭(zhēng)層組成。圖中的llndlstll模塊表示對(duì)輸入矢量P和神經(jīng)元權(quán)值矢量w之間的距離取負(fù)。該網(wǎng)絡(luò)的輸出層是競(jìng)爭(zhēng)層,圖中的模塊c表示競(jìng)爭(zhēng)傳遞函數(shù),其輸出矢量由競(jìng)爭(zhēng)層各神經(jīng)元的輸出組成,這些輸出指明了原型模式與輸入向量的相互關(guān)系。競(jìng)爭(zhēng)過(guò)后只有一個(gè)神經(jīng)元有非零輸出,獲勝的神經(jīng)元指明輸入屬于哪類(每個(gè)原型向量代表一個(gè)類)。

1.2競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)的原理

競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)上,既不同于階層型的各層神經(jīng)元間非單向連接,也不同于全連接型。它有層次界限,一般是由輸入層和競(jìng)爭(zhēng)層構(gòu)成的兩層網(wǎng)絡(luò)。兩層之間各神經(jīng)元實(shí)現(xiàn)雙向全連接,沒(méi)有隱含層,有時(shí)競(jìng)爭(zhēng)層各神經(jīng)元之間還存在橫向連接。在學(xué)習(xí)方法上,不是以網(wǎng)絡(luò)的誤差或能量函數(shù)的單調(diào)遞減作為算法準(zhǔn)則。而是依靠神經(jīng)元之間的興奮、協(xié)調(diào)、抑制、競(jìng)爭(zhēng)的作用來(lái)進(jìn)行信息處理,指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)與工作。

網(wǎng)絡(luò)在剛開(kāi)始建立的時(shí)候,輸入層和輸出層之間的連接權(quán)值已經(jīng)開(kāi)始了,如果與競(jìng)爭(zhēng)層某一神經(jīng)元對(duì)應(yīng)的矢量子類別屬于線性層某個(gè)神經(jīng)元所對(duì)應(yīng)的目標(biāo)類別,則這兩個(gè)神經(jīng)元的連接權(quán)值為1,否則二者的連接權(quán)值為0,這樣的權(quán)值矩陣就實(shí)現(xiàn)了子類別到目標(biāo)類別的合并。在建立競(jìng)爭(zhēng)型網(wǎng)絡(luò)時(shí),每類數(shù)據(jù)占數(shù)據(jù)總數(shù)的百分比是已知的,這也是競(jìng)爭(zhēng)層神經(jīng)元?dú)w并到線性層的各個(gè)輸出時(shí)所依據(jù)的比例。

1.3存在的問(wèn)題

競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)按Kohonen學(xué)習(xí)規(guī)則對(duì)獲勝神經(jīng)元的權(quán)值進(jìn)行調(diào)整,通過(guò)輸入向量進(jìn)行神經(jīng)元權(quán)值的調(diào)整,因此在模式識(shí)別的應(yīng)用中是很有用的。通過(guò)學(xué)習(xí),那些最靠近輸入向量的神經(jīng)元權(quán)值向量得到修正,使之更靠近輸入向量,其結(jié)果是獲勝的神經(jīng)元在下一次相似的輸入向量出現(xiàn)時(shí),獲勝的可能性更大;而對(duì)于那些與輸入向量相差很遠(yuǎn)的神經(jīng)元權(quán)值向量,獲勝的可能性將變得很小。這樣,當(dāng)經(jīng)過(guò)越來(lái)越多的訓(xùn)練樣本學(xué)習(xí)后,每一個(gè)網(wǎng)絡(luò)層中的神經(jīng)元權(quán)值向量很快被調(diào)整為最接近某一類輸入向量的值。最終的結(jié)果是,如果神經(jīng)元的數(shù)量足夠多,則具有相似輸入向量的各類模式作為輸入向量時(shí),其對(duì)應(yīng)的神經(jīng)元輸出為1;而對(duì)于其他模式的輸入向量,其對(duì)應(yīng)的神經(jīng)元輸出為0。所以,競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)具有對(duì)輸入向量進(jìn)行學(xué)習(xí)分類的能力。

例子:以競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)為工具,對(duì)下面的數(shù)據(jù)進(jìn)行分類:

運(yùn)用Matlab編程實(shí)現(xiàn),發(fā)現(xiàn)網(wǎng)絡(luò)的訓(xùn)練誤差能達(dá)到要求,最后也能實(shí)現(xiàn)很好的分類效果。運(yùn)行結(jié)果如圖2所示。

有運(yùn)行結(jié)果可以看到,訓(xùn)練誤差達(dá)到要求,分類結(jié)果也很合理。

但是在實(shí)際應(yīng)用過(guò)程中,我們發(fā)現(xiàn),當(dāng)對(duì)于訓(xùn)練數(shù)據(jù)的數(shù)據(jù)特征十分明顯的時(shí)候,本文設(shè)計(jì)的網(wǎng)絡(luò)模型可以對(duì)訓(xùn)練的數(shù)據(jù)進(jìn)行合理有效的分類,但是,當(dāng)訓(xùn)練數(shù)據(jù)的特征不太明顯區(qū)分的時(shí)候,本文設(shè)計(jì)的訓(xùn)練模型的分類效果就不是太有優(yōu)勢(shì),所得到的分類結(jié)果就不能達(dá)到我們預(yù)期的效果。

我們利用競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)樣本進(jìn)行分類,其中參數(shù)設(shè)置為學(xué)習(xí)效率0.1,網(wǎng)絡(luò)競(jìng)爭(zhēng)層有4個(gè)神經(jīng)元,運(yùn)用Matlab編程實(shí)現(xiàn),發(fā)現(xiàn)結(jié)果如下:

例子:我們利用本文設(shè)計(jì)的網(wǎng)絡(luò)分類模型進(jìn)行對(duì)數(shù)據(jù)分類處理:進(jìn)行分類處理數(shù)據(jù)的樣本數(shù)據(jù)如下所示:

通過(guò)運(yùn)行學(xué)習(xí)發(fā)現(xiàn)訓(xùn)練誤差較大,分類結(jié)果也達(dá)不到要求。

2改進(jìn)的方法

2.1問(wèn)題分析

通過(guò)比較分析我們發(fā)現(xiàn),上面的數(shù)據(jù)樣本沒(méi)有明顯的分類特征,所以,以競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,其輸入向量?jī)H僅依靠數(shù)據(jù)本身的固有的特征時(shí)不夠的,但我們可以把數(shù)據(jù)樣本看作是二維數(shù)據(jù),假設(shè)同符號(hào)的特征值為1,不同符號(hào)的特征值為2,于是一個(gè)新的訓(xùn)練樣本就確定了,即成為三維數(shù)據(jù)模型。

2.2改進(jìn)的算法

第一步:給定數(shù)據(jù)集X=[X1,X2……,Xi),對(duì)網(wǎng)絡(luò)進(jìn)行初始化,隨機(jī)給定網(wǎng)絡(luò)競(jìng)爭(zhēng)層與輸入層間的初始權(quán)向量wj(=wj[w1j w2j…wnj];j=1,2,…,m xp;wijE(0,1));給定輸出層與競(jìng)爭(zhēng)層間的連接權(quán)值wjo=1/m,o=1,2,…P (P表示第二隱層和輸出層的連接權(quán)矢量)。

第二步:創(chuàng)建競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò),首先根據(jù)給定的問(wèn)題確定訓(xùn)練樣本的輸入向量,當(dāng)學(xué)習(xí)模式樣本本身雜亂無(wú)章,沒(méi)有明顯的分類特征,網(wǎng)絡(luò)對(duì)輸入模式的響應(yīng)呈現(xiàn)震蕩的現(xiàn)象,不足以區(qū)分各類模式時(shí),在創(chuàng)建網(wǎng)絡(luò)之前,提取訓(xùn)練樣本的特征值,設(shè)置輸入樣本的特征向量,然后再創(chuàng)建網(wǎng)絡(luò)模型,并根據(jù)模式分類數(shù)確定神經(jīng)元的數(shù)目,最后任取一輸入模式Ak。

第三步:計(jì)算競(jìng)爭(zhēng)層各神經(jīng)元的輸入值si:

第四步:對(duì)本文建立的網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí),網(wǎng)絡(luò)訓(xùn)練最大次數(shù)的初始值設(shè)置為230,當(dāng)訓(xùn)練誤差大于預(yù)期的設(shè)定值的時(shí)候,可以嘗試增加訓(xùn)練的最大次數(shù),按“勝者為王”(Winner Takes All)原則,將訓(xùn)練網(wǎng)絡(luò)中獲得最接近預(yù)期值的神經(jīng)元作為勝者,輸出狀態(tài)設(shè)置為1,沒(méi)有獲勝的神經(jīng)元的輸出狀態(tài)設(shè)置為0。如果有兩個(gè)以上神經(jīng)元的sj相同,取左邊的為獲勝單元。

第五步:獲勝神經(jīng)元連接權(quán)修正如下:

第六步:另選一學(xué)習(xí)模式,返回步驟3,直至所有學(xué)習(xí)模式提供一遍。

第七步:如果不滿足要求,則返回到最初的訓(xùn)練狀態(tài),反復(fù)訓(xùn)練直至訓(xùn)練網(wǎng)絡(luò)中神經(jīng)元獲得最接近預(yù)期值,最終的訓(xùn)練結(jié)束。

第八步:根據(jù)測(cè)試樣本利用Matlab編寫(xiě)程序進(jìn)行仿真實(shí)驗(yàn)。

篇(2)

引言

隨著設(shè)備復(fù)雜化程度的提高,對(duì)故障診斷的快速性和準(zhǔn)確性提出了更高的要求。將神經(jīng)網(wǎng)絡(luò)應(yīng)用于故障診斷中已成為一個(gè)非?;钴S的研究領(lǐng)域。利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的分類能力,進(jìn)行故障模式的分類與學(xué)習(xí),診斷出故障。

Huang在前人研究的基礎(chǔ)上提出了一種稱為極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)的學(xué)習(xí)方法,在保留計(jì)算精度的同時(shí)可以大幅度的縮減訓(xùn)練的時(shí)間。將ELM運(yùn)用到設(shè)備故障診斷中,極大提高了診斷的快速性和準(zhǔn)確性。

一、極限學(xué)習(xí)機(jī)研究現(xiàn)狀

ELM自2004年提出就一直受到學(xué)者的極大興趣。我們從ELM的理論和應(yīng)用兩方面進(jìn)行闡述。

1.1 ELM的理論

對(duì)于傳統(tǒng)ELM算法,網(wǎng)絡(luò)結(jié)構(gòu)、激活函數(shù)類型以及隱層神經(jīng)元的選擇對(duì)其泛化性能都有重要的影響。為了提高計(jì)算效率,使得ELM適用于更多應(yīng)用領(lǐng)域,研究者提出了許多ELM擴(kuò)展算法。

1.2 ELM的應(yīng)用

研究人員已嘗試?yán)肊LM方法解決現(xiàn)實(shí)中各種模式分類問(wèn)題。隨著ELM自身理論的進(jìn)一步發(fā)展和完善,在人臉識(shí)別、文本分類、醫(yī)療診斷等領(lǐng)域中應(yīng)用廣泛。

二、故障診斷技術(shù)研究現(xiàn)狀

故障診斷技術(shù)是由于建立監(jiān)控系統(tǒng)的需要而發(fā)展起來(lái)的。其發(fā)展至今經(jīng)歷了3個(gè)階段。新的診斷技術(shù)帶來(lái)了領(lǐng)域內(nèi)算法的革新,設(shè)備精密程度的提高也對(duì)診斷實(shí)時(shí)性提出了更高的要求。如何保證故障的快速準(zhǔn)確診斷成了診斷技術(shù)發(fā)展重要內(nèi)容。

基于神經(jīng)網(wǎng)絡(luò)的故障診斷運(yùn)用廣泛,然而傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法存在許多問(wèn)題。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)相比,極限學(xué)習(xí)機(jī)方法通過(guò)隨機(jī)選取輸入權(quán)值及隱層單元的偏置值,可以產(chǎn)生唯一的最優(yōu)解,并具有參數(shù)易于選擇以及泛化能力好等特點(diǎn),在眾多領(lǐng)域有著廣泛應(yīng)用。

三、基于極限學(xué)習(xí)機(jī)的故障診斷方法研究

3.1基于ELM的故障診斷流程

(1)數(shù)據(jù)預(yù)處理。按照選取的特征向量和故障類型對(duì)故障樣本進(jìn)行預(yù)處理,并將處理后的樣本按比例分為訓(xùn)練樣本集和測(cè)試樣本集。

(2)ELM的學(xué)習(xí)算法主要有以下3個(gè)步驟:確定隱含層神經(jīng)元個(gè)數(shù);隨機(jī)設(shè)定輸入層與隱含層間的連接權(quán)值和隱含層神經(jīng)元的偏置;選擇隱含層神經(jīng)元激活函數(shù),進(jìn)而計(jì)算隱含層輸出矩陣計(jì)算輸出層權(quán)值。

(3)用訓(xùn)練好的ELM模型對(duì)測(cè)試樣本集進(jìn)行分類,并輸出分類結(jié)果。

3.2基于改進(jìn)ELM的故障診斷

篇(3)

基于自編碼神經(jīng)網(wǎng)絡(luò)建立搜索信息模型的目的是根據(jù)用戶搜索信息的歷史,推斷出網(wǎng)頁(yè)中的內(nèi)容是用戶關(guān)注的信息并即時(shí)顯示。首先將用戶關(guān)注的歷史信息按標(biāo)題分類,通過(guò)自編碼神經(jīng)網(wǎng)絡(luò)建立標(biāo)題特征值數(shù)據(jù)庫(kù)。當(dāng)自編碼神經(jīng)網(wǎng)絡(luò)搜索信息模型工作時(shí),按照用戶提供的關(guān)鍵詞順序,打開(kāi)用戶經(jīng)常瀏覽的網(wǎng)頁(yè),讀入標(biāo)題文本,若具有數(shù)據(jù)庫(kù)中的標(biāo)題特征,則將該標(biāo)題的文本內(nèi)容即時(shí)顯示。

直接解析網(wǎng)頁(yè)中的標(biāo)題文本,面臨的基本問(wèn)題是文本的表示。如果把標(biāo)題文本所有的詞都作為特征項(xiàng),那么太多的特征向量維數(shù)導(dǎo)致計(jì)算量太大。例如50個(gè)標(biāo)題,每個(gè)標(biāo)題25個(gè)漢字,特征項(xiàng)將有50×25=1250個(gè)。如果將標(biāo)題中的某個(gè)關(guān)鍵詞作為特征詞,將會(huì)有幾千個(gè)包含關(guān)鍵詞的標(biāo)題,從而導(dǎo)致讀入分析量過(guò)于巨大。本文采用自編碼神經(jīng)網(wǎng)絡(luò),用映射變換的方法把原始文本特征變換為較少的新特征,提高信息搜索效率。

1 自編碼神經(jīng)網(wǎng)絡(luò)

1.1 自編碼神經(jīng)網(wǎng)絡(luò)理論

Auto-Encoder(自編碼)[1],自編碼算法是一種基于神經(jīng)網(wǎng)絡(luò)算法的無(wú)監(jiān)督學(xué)習(xí)算法,與神經(jīng)網(wǎng)絡(luò)算法的不同之處是將輸入值作為輸出節(jié)點(diǎn)的輸出。自編碼算法的另一個(gè)特征是隱藏層節(jié)點(diǎn)的個(gè)數(shù)一般少于輸入輸出節(jié)點(diǎn)的個(gè)數(shù)。這樣的意義是將輸入的特征通過(guò)神經(jīng)網(wǎng)絡(luò)的非線性變換到節(jié)點(diǎn)數(shù)更少的隱藏層。因此,可以通過(guò)自編碼神經(jīng)網(wǎng)絡(luò)對(duì)給定的樣本進(jìn)行訓(xùn)練學(xué)習(xí),從而得到輸入數(shù)據(jù)降維后的特征,即為隱藏層的節(jié)點(diǎn)數(shù),省去了人工特征提取的麻煩。

自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖1所示[2]。這是一種深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),包含了多個(gè)隱含層,整個(gè)網(wǎng)絡(luò)是一種對(duì)稱的結(jié)構(gòu),中心層的神經(jīng)元的個(gè)數(shù)最少。網(wǎng)絡(luò)通過(guò)對(duì)樣本的訓(xùn)練可以得到一組權(quán)值系數(shù),而輸入數(shù)據(jù)通過(guò)這組權(quán)值系數(shù)表達(dá)成低維形式,從而達(dá)到了用降維后的特征表示出輸入的數(shù)據(jù)。

圖1 自編碼神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

Fig.1 The structure of auto-encoder neural network

1.1.1 預(yù)訓(xùn)練

(1) 輸入?yún)?shù)的確定:標(biāo)題是作者給出的提示文章內(nèi)容的短語(yǔ),標(biāo)題一般都簡(jiǎn)練、醒目,有不少縮略語(yǔ),與報(bào)道的主要內(nèi)容有著重要的聯(lián)系。如登陸我的鋼鐵網(wǎng)站,搜索鋼管熱點(diǎn)資訊,顯示的標(biāo)題有“我國(guó)自主研制*****油管成功替代進(jìn)口”,學(xué)習(xí)樣本選擇50組標(biāo)題,每個(gè)標(biāo)題不超過(guò)25個(gè)漢字,如表1所示。

表1 學(xué)習(xí)樣本

Tab. 1 Learning samples

1

我國(guó)自主研制高端耐熱鋼無(wú)縫鋼管成功替代進(jìn)口

2

我國(guó)自主研制K55石油套管成功替代進(jìn)口

3

我國(guó)自主研制J55稠油熱采套管成功替代進(jìn)口

4

我國(guó)自主研制專用耐高溫防火船舶用套管成功替代進(jìn)口

5

我國(guó)自主研制20G高壓鍋爐管成功替代進(jìn)口

6

我國(guó)自主研制特殊用途低溫用管成功替代進(jìn)口

7

我國(guó)自主研制起重機(jī)臂架無(wú)縫鋼管成功替代進(jìn)口

8

我國(guó)自主研制精密合金4J36船用管材成功替代進(jìn)口

9

我國(guó)自主研制高強(qiáng)韌性高抗擠毀套管成功替代進(jìn)口

10

我國(guó)自主研制三種極限規(guī)格管線管成功替代進(jìn)口

……

50

我國(guó)自主研制醫(yī)藥化工用管成功替代進(jìn)口

(2) 語(yǔ)句預(yù)處理[3]:學(xué)習(xí)樣本句子進(jìn)行預(yù)處理是把句子中的每一個(gè)漢字變換成自編碼神經(jīng)網(wǎng)絡(luò)模型能接受的數(shù)字化形式。為了使神經(jīng)網(wǎng)絡(luò)能接受外部數(shù)據(jù),首先要對(duì)句子中的漢字進(jìn)行編碼,編碼方式是采用漢字的計(jì)算機(jī)內(nèi)碼(GBK碼)。每個(gè)漢字機(jī)內(nèi)碼有16位二進(jìn)制,如:“我國(guó)自主研制”的二進(jìn)制碼為

1100111011010010 我(GBK碼)

1011100111111010 國(guó)(GBK碼)

1101011111010100 自(GBK碼)

1101011011110111 主(GBK碼)

1101000111010000 研(GBK碼)

1101011011000110 制(GBK碼)

將16位二進(jìn)制數(shù)轉(zhuǎn)換為十進(jìn)制數(shù)并進(jìn)行線性變換,映射到實(shí)數(shù)[0 1]之間,作為輸入神經(jīng)元初值。變換公式如下:

式中:maxi和mini;tmax和tmin分別為x(p)i,t(p)量程范圍的最大值和最小值。

(3)預(yù)訓(xùn)練:幾個(gè)獨(dú)立的RBM構(gòu)成“堆?!睒?gòu)成了預(yù)訓(xùn)練部分,而RBM是BM (boltzmannmachine)的一種特殊連接方式。圖2即為RBM的網(wǎng)絡(luò)構(gòu)成。它是一種隱含層神經(jīng)元無(wú)連接,并且只有可見(jiàn)層和隱含層兩層神經(jīng)元。

圖2 RBM網(wǎng)絡(luò)構(gòu)成

Fig. 2 Construction of restricted boltzmannmachine

BM的權(quán)值調(diào)整公式為[4]

(1)

式中:在第t步時(shí)神經(jīng)元i、j間的連接權(quán)值為wij(t);η為學(xué)習(xí)速率;T為網(wǎng)絡(luò)溫度;<uihj>+、<uihj>-分別為正向平均關(guān)聯(lián)和反向平均關(guān)聯(lián)。

在RBM中,可見(jiàn)層神經(jīng)元的輸出和隱含層神經(jīng)元輸出的乘積即為平均關(guān)聯(lián)。系數(shù)ε由η和T統(tǒng)一合并而成,迭代步長(zhǎng)即由權(quán)值調(diào)整公式ε表示。

圖3 RBM網(wǎng)絡(luò)結(jié)構(gòu)圖

Fig. 3 RBM network structure diagram

(4)MATLAB實(shí)現(xiàn):

本文建立的BP神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)為

[25,15,25],[15,12,15],[12,10,12],[10,8,10],[8,5,8]

設(shè)定網(wǎng)絡(luò)隱含層的激活函數(shù)為雙曲正切S型函數(shù)tansig,輸出層的激活函數(shù)為線性激活函數(shù)purelin,網(wǎng)絡(luò)的訓(xùn)練函數(shù)為L(zhǎng)evenberg-Marquardt算法訓(xùn)練函數(shù)trainlm。因此對(duì)應(yīng)的MATLAB神經(jīng)網(wǎng)絡(luò)工具箱的程序語(yǔ)句為

net=newff(minmax(P),[25,25],{‘tansig’,’purelin’}, ’trainlm’);

net=newff(minmax(P),[15,15],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[12,12],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[10,10],{‘tansig’,’purelin’},’trainlm’);

net=newff(minmax(P),[8,8],{‘tansig’,’purelin’},’trainlm’);

設(shè)定學(xué)習(xí)速率為0.01,最大訓(xùn)練步數(shù)為300,目標(biāo)誤差為0.00001。

(5)預(yù)訓(xùn)練結(jié)果:

預(yù)訓(xùn)練結(jié)果如表2所示。

表2 預(yù)訓(xùn)練結(jié)果

Tab. 2 The results of pre training

誤差

學(xué)習(xí)速率

步長(zhǎng)

[25,15,25]

0.003248

0.01

150

[15,12,15]

0.0022809

0.01

125

[12,10,12]

0.0025866

0.01

100

[10,8,10]

0.0039575

0.01

75

[8,5,8]

0.013529

0.01

50

1.1.2 展開(kāi)

如圖4所示,將各個(gè)RBM連接,得到自編碼神經(jīng)網(wǎng)絡(luò)。預(yù)訓(xùn)練所得到的權(quán)值,將作為整個(gè)自編碼神經(jīng)網(wǎng)絡(luò)的初始權(quán)值,參與整個(gè)網(wǎng)絡(luò)的微調(diào)訓(xùn)練。

圖4 RBM展開(kāi)圖

Fig. 4 Development of RBM network structure

1.1.3 微調(diào)

微調(diào)訓(xùn)練是在預(yù)訓(xùn)練得到初始權(quán)值的基礎(chǔ)上,對(duì)權(quán)值進(jìn)一步調(diào)整。采用以交叉熵為目標(biāo)函數(shù)[5]的BP算法完成網(wǎng)絡(luò)的微調(diào)訓(xùn)練。交叉熵是用來(lái)度量?jī)蓚€(gè)概率分布間差異性的,它是一個(gè)非負(fù)數(shù),兩個(gè)分布越相似,其越小。原始的交叉熵定義為

(4)

式中:x為隨機(jī)變量;q(x)為已知概率分布;p(x)為估計(jì)概率分布。

對(duì)于隨機(jī)變量x,當(dāng)用q(x)估計(jì)p(x)時(shí),通過(guò)調(diào)整受x影響的p(x)來(lái)最小化交叉熵D(pq),用于自編碼神經(jīng)網(wǎng)絡(luò)權(quán)值調(diào)整的BP算法交叉熵函數(shù)形式為

(5)

式中:ti目標(biāo)概率分布;yi實(shí)際概率分布。

整個(gè)網(wǎng)絡(luò)訓(xùn)練的目的是調(diào)整權(quán)值以使交叉熵函數(shù)達(dá)到最小,權(quán)值調(diào)整公式為

根據(jù)上面的權(quán)值調(diào)整公式,可以完成網(wǎng)絡(luò)的微調(diào)訓(xùn)練。訓(xùn)練結(jié)果如表3所示。

表3 微調(diào)訓(xùn)練結(jié)果

1.1.4 特征提取

50組標(biāo)題(每個(gè)標(biāo)題不超過(guò)25個(gè)漢字)的學(xué)習(xí)訓(xùn)練,通過(guò)自編碼網(wǎng)絡(luò)的逐層特征變換,將樣本數(shù)據(jù)約1250(50×25)個(gè)漢字編碼,在原空間的特征表示變換到一個(gè)新特征空間。其中網(wǎng)絡(luò)最深隱含層的輸出值(5個(gè))和權(quán)值矩陣W6(5×8=40個(gè)),共計(jì)45個(gè),為提取標(biāo)題文本1250個(gè)漢字編碼的特征值。

2 實(shí) 例

本文選取10組標(biāo)題文本見(jiàn)表4,分別輸入自編碼神經(jīng)網(wǎng)絡(luò)。預(yù)測(cè)結(jié)果表示基本符合要求。

表4 預(yù)測(cè)結(jié)果

Tab. 4 The prediction results

序號(hào)

樣本輸入

結(jié)果顯示

1

我國(guó)自主研制的蛟龍?zhí)柹钏綔y(cè)器成功替代進(jìn)口

無(wú)

2

我國(guó)自主研制首臺(tái)3.6萬(wàn)噸垂直擠壓機(jī)擠合格鋼管成功替代進(jìn)口

我國(guó)自主研制首臺(tái)3.6萬(wàn)噸垂直擠壓機(jī)擠合格鋼管成功替代進(jìn)口

3

我國(guó)自主研制的超級(jí)計(jì)算機(jī)系統(tǒng)成功替代進(jìn)口

無(wú)

4

我國(guó)自主研發(fā)的1000MPa高壓共軌管成功替代進(jìn)口

我國(guó)自主研發(fā)的1000MPa高壓共軌管成功替代進(jìn)口

5

我國(guó)自主研制超臨界電站無(wú)縫鋼管T92、P92成功替代進(jìn)口

我國(guó)自主研制超臨界電站無(wú)縫鋼管T92、P92成功替代進(jìn)口

6

我國(guó)自主研制重載火車頭下線成功替代進(jìn)口

無(wú)

7

我國(guó)自主研制成功特高壓交、直流套管成功替代進(jìn)口

我國(guó)自主研制成功特高壓交、直流套管成功替代進(jìn)口

8

我國(guó)自主研制的Q355GNH系列耐候鋼成功替代進(jìn)口

我國(guó)自主研制的Q355GNH系列耐候鋼成功替代進(jìn)口

9

我國(guó)自主研制的渦槳支線飛機(jī)成功替代進(jìn)口

無(wú)

10

我國(guó)自主研制釩微合金L290管線鋼成功替代進(jìn)口

我國(guó)自主研制釩微合金L290管線鋼成功替代進(jìn)口

3 結(jié) 語(yǔ)

篇(4)

一種新的基于多描述編碼的應(yīng)用層組播系統(tǒng)

基于屬性理論的教師教學(xué)質(zhì)量動(dòng)態(tài)評(píng)估

RIP和OSPF路由協(xié)議在Click軟件路由器中的實(shí)現(xiàn)

面向集裝箱字符識(shí)別的預(yù)處理算法

基于身份與位置分離策略可選的多宿主研究

基于分層Petri網(wǎng)的倉(cāng)儲(chǔ)管理建模與驗(yàn)證

一種基于云模型數(shù)據(jù)填充的算法

高速公路的匝道與可變限速聯(lián)合模糊控制

MPLS網(wǎng)絡(luò)中LSP模型改進(jìn)研究

軟件組件的共代數(shù)語(yǔ)意

基于主被動(dòng)連接的P2P節(jié)點(diǎn)識(shí)別算法

FARIMA網(wǎng)絡(luò)流量預(yù)測(cè)模型的研究與改進(jìn)

基于H.264的視頻監(jiān)控系統(tǒng)關(guān)鍵代碼實(shí)現(xiàn)與優(yōu)化

PAIS中過(guò)程挖掘技術(shù)的研究

安慶氣溫的多重分形消除趨勢(shì)波動(dòng)分析與預(yù)測(cè)

基于WordNet和Kernel方法的Web服務(wù)發(fā)現(xiàn)機(jī)制研究

一種新型的實(shí)時(shí)調(diào)度算法

基于反饋的高職網(wǎng)格資源共享方案研究與實(shí)現(xiàn)

面向目標(biāo)檢測(cè)的高光譜圖像壓縮技術(shù)

基于單源多段圖方法的多目標(biāo)決策算法與應(yīng)用

基于Gram-Schmidt過(guò)程的支持向量機(jī)降維方法

基于AHP-FCE的供應(yīng)商選擇問(wèn)題研究與應(yīng)用

對(duì)IPSec中AH和ESP協(xié)議的分析與建議

一種基于混沌優(yōu)化的混合粒子群算法

多軟件分時(shí)段租賃系統(tǒng)構(gòu)想及其實(shí)現(xiàn)

SCTP協(xié)議分析與仿真研究

數(shù)碼輸入法字碼本的自動(dòng)獲取技術(shù)

SVM和K-means結(jié)合的文本分類方法研究

二群協(xié)同的人工魚(yú)群優(yōu)化算法

基于特征匹配的漸變紋理圖像合成算法

三元Box樣條構(gòu)造方法的實(shí)現(xiàn)

基于二元語(yǔ)義的語(yǔ)言加權(quán)取大改進(jìn)算法的研究

面向TD協(xié)議棧的內(nèi)存管理技術(shù)研究

隨機(jī)Petri網(wǎng)性能計(jì)算軟件關(guān)鍵技術(shù)的研究

基于Petri網(wǎng)的Web服務(wù)動(dòng)態(tài)組合

BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)算法的改進(jìn)及應(yīng)用

移動(dòng)自組網(wǎng)中基于推薦的信任模型

基于BPEL和QoS的動(dòng)態(tài)Web服務(wù)組合框架研究

面向目標(biāo)檢測(cè)的高光譜圖像壓縮技術(shù)

基于單源多段圖方法的多目標(biāo)決策算法與應(yīng)用

基于Gram-Schmidt過(guò)程的支持向量機(jī)降維方法

基于AHP-FCE的供應(yīng)商選擇問(wèn)題研究與應(yīng)用

對(duì)IPSec中AH和ESP協(xié)議的分析與建議

一種基于混沌優(yōu)化的混合粒子群算法

多軟件分時(shí)段租賃系統(tǒng)構(gòu)想及其實(shí)現(xiàn)

SCTP協(xié)議分析與仿真研究

數(shù)碼輸入法字碼本的自動(dòng)獲取技術(shù)

SVM和K-means結(jié)合的文本分類方法研究

二群協(xié)同的人工魚(yú)群優(yōu)化算法

基于特征匹配的漸變紋理圖像合成算法

三元Box樣條構(gòu)造方法的實(shí)現(xiàn)

基于二元語(yǔ)義的語(yǔ)言加權(quán)取大改進(jìn)算法的研究

面向TD協(xié)議棧的內(nèi)存管理技術(shù)研究

隨機(jī)Petri網(wǎng)性能計(jì)算軟件關(guān)鍵技術(shù)的研究

基于Petri網(wǎng)的Web服務(wù)動(dòng)態(tài)組合

篇(5)

多溫下KCl+CsCl+C_2H_5OH/CH_3OH+H_2O四元體系的相平衡研究

MSTN基因的研究進(jìn)展及其應(yīng)用

制備條件對(duì)Ru/ZrO_2·xH_2O催化酯加氫制備醇活性的影響

微波萃取法制備桔??傇碥?/p>

基于DSP的紅外成像電力在線檢測(cè)系統(tǒng)的研究

LBG與SOFM應(yīng)用于矢量量化的比較研究

超寬帶高功率脈沖輻射源氣體開(kāi)關(guān)的研究

高壓直流牽引供電網(wǎng)的初步研究

智能醫(yī)用超聲波霧化器的設(shè)計(jì)

基于Wincc的炭黑裝置監(jiān)控系統(tǒng)

定點(diǎn)CORDIC算法的誤差控制

基于各向異性擴(kuò)散的多細(xì)節(jié)圖像消噪方案

基于S7-300和ACS800的橋式起重機(jī)控制系統(tǒng)改造

LiH薄膜制備技術(shù)進(jìn)展

拉普拉斯方程有限差分法的MATLAB實(shí)現(xiàn)

關(guān)于不定方程組y~2-10x~2=9,z~2-17x~2=16

關(guān)于不定方程x~2+49~n=y~3的唯一整數(shù)解

基于非單調(diào)線搜索的無(wú)記憶擬牛頓法的全局收斂性

不動(dòng)點(diǎn)、壓縮映射原理的進(jìn)一步研究

弱橫向擾動(dòng)下的熱塵埃等離子體中的塵埃聲孤波

時(shí)間域上拋物型方程正反演解的穩(wěn)定性分析

Frattini子群的一些推廣

不動(dòng)點(diǎn)定理在微分方程中的應(yīng)用

超空間F_1(X)的可縮性

熱傳導(dǎo)方程反問(wèn)題的數(shù)值解法

一類時(shí)滯廣義系統(tǒng)的魯棒控制

距離矢量路由算法的改進(jìn)方案

基于JSP的電子郵件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

基于web的自適應(yīng)學(xué)習(xí)系統(tǒng)的研究與設(shè)計(jì)

一種改進(jìn)的基于分布式Caching的自適應(yīng)搜索機(jī)制

Linux下嵌入式動(dòng)態(tài)Web技術(shù)設(shè)計(jì)實(shí)現(xiàn)

基于窗函數(shù)的FIR濾波器的設(shè)計(jì)

力學(xué)試題庫(kù)管理系統(tǒng)的開(kāi)發(fā)

單片機(jī)C51與匯編語(yǔ)言混合調(diào)用的實(shí)現(xiàn)

基于P2P覆蓋樹(shù)網(wǎng)絡(luò)的流媒體傳輸技術(shù)

數(shù)字校園信息顯示系統(tǒng)建設(shè)方案研究溫度對(duì)長(zhǎng)鏈α-烯烴溶液聚合法合成原油減阻劑的影響

β-環(huán)糊精與常用的兩種光譜探針包絡(luò)作用對(duì)比研究

微波技術(shù)在竹漿漂白中的應(yīng)用

基于蟻群尋路的圖像分割算法

公交車自動(dòng)報(bào)站系統(tǒng)的設(shè)計(jì)

基于遺傳BP神經(jīng)網(wǎng)絡(luò)的非平穩(wěn)時(shí)間序列預(yù)

基于BP算法的神經(jīng)網(wǎng)絡(luò)內(nèi)模控制器

基于51單片機(jī)的可變調(diào)音樂(lè)演奏系統(tǒng)

基于神經(jīng)網(wǎng)絡(luò)對(duì)光纖智能結(jié)構(gòu)的損傷評(píng)估

基于改進(jìn)互信息的特征提取的文本分類系統(tǒng)

CTIA型讀出電路的噪聲抑制

離心流化床的基本原理及發(fā)展趨勢(shì)

電驅(qū)微差6R關(guān)節(jié)型開(kāi)鏈機(jī)械手工作空間運(yùn)動(dòng)學(xué)逆解

焦磷酸鹽鍍銅工藝研究

篇(6)

中圖分類號(hào): TP391; TP18 文獻(xiàn)標(biāo)識(shí)碼:B文章編號(hào):1672-5913(2007)02-0072-04

支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM)是Cortes和Vapnik于1995年首先提出的,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。傳統(tǒng)統(tǒng)計(jì)模式識(shí)別的方法都是在樣本數(shù)目足夠多的前提下進(jìn)行研究,所提出的各種方法只有在樣本數(shù)趨于無(wú)窮大時(shí)其性能才有理論上的保證,而在多數(shù)實(shí)際應(yīng)用中,樣本數(shù)目通常是有限的,很多傳統(tǒng)方法都難以取得理想的效果。Vapnik等人早在20世紀(jì)60年代就開(kāi)始研究有限樣本情況下的機(jī)器學(xué)習(xí)問(wèn)題。20世紀(jì)90年代,有限樣本情況下的機(jī)器學(xué)習(xí)理論研究逐漸成熟起來(lái),形成了一個(gè)較完善的理論體系――統(tǒng)計(jì)學(xué)習(xí)理論(Statistical Learning Theory)。1992年到1995年,在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新的模式識(shí)別方法――支持向量機(jī)。隨著WWW的迅猛發(fā)展,文本分類成為處理和組織大量文檔數(shù)據(jù)的關(guān)鍵技術(shù)。SVM是繼k-近鄰、神經(jīng)網(wǎng)絡(luò)、相素貝葉斯等方法之后被用于文本分類,并且是在Reuter語(yǔ)料(包括21450版本和Apte給出的集合)上能取得非常好的結(jié)果的文本分類算法之一。

本文重點(diǎn)研究SVM在兩個(gè)不同的語(yǔ)料集上,選擇不同的特征維數(shù),采用四種不同的核函數(shù)的分類性能比較。實(shí)驗(yàn)結(jié)果表明,這種方法削弱了訓(xùn)練樣本分布的不均勻性對(duì)分類性能的影響,可以將微平均準(zhǔn)確率提高大約1%~2%。

本文第1節(jié)將闡述支持向量機(jī)算法的基本思想;第2節(jié)介紹目前廣泛應(yīng)用的三種核函數(shù);第3節(jié)給出了在著名的英文語(yǔ)料集Reuters-21578上的實(shí)驗(yàn)結(jié)果與分析;第4節(jié)是結(jié)論和進(jìn)一步工作展望。

1統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)

統(tǒng)計(jì)學(xué)習(xí)理論就是研究小樣本統(tǒng)計(jì)估計(jì)和預(yù)測(cè)的理論,具有很好的泛化能力,為解決有限樣本學(xué)習(xí)問(wèn)題提供了一個(gè)統(tǒng)一的框架。它能將很多現(xiàn)有方法納入其中,有望幫助解決許多原來(lái)難以解決的問(wèn)題(比如神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇問(wèn)題、局部極小點(diǎn)問(wèn)題等);同時(shí),在這一理論基礎(chǔ)上發(fā)展了一種新的通用學(xué)習(xí)方法――支持向量機(jī)(SVM) 。

SVM是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,有較好的推廣性能和較高的分類準(zhǔn)確率。該算法基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,將數(shù)據(jù)集合壓縮到支持向量集合(通常為前者的3%~5%),學(xué)習(xí)得到分類決策函數(shù)。其基本思想是構(gòu)造一個(gè)超平面作為決策平面,使正負(fù)模式之間的間隔最大。

SVM方法是從線性可分情況下的最優(yōu)分類面提出的。如圖1所示,圓圈和實(shí)心點(diǎn)分別代表兩類的訓(xùn)練樣本,H為把兩類沒(méi)有錯(cuò)誤地分開(kāi)的分類線,H1、H2分別為過(guò)各類樣本中離分類線最近的點(diǎn)且平行于分類線的直線,H1和H2之間的距離叫做兩轉(zhuǎn)類的分類間隔(Margin)。支持向量與超平面之間的距離為1/ω,則支持向量間距為2/ω尋找超平面的問(wèn)題,可化為求解以下二次規(guī)劃問(wèn)題:

3.3實(shí)驗(yàn)結(jié)果與分析

為了考察算法的效果,我們采用了VC++6.0實(shí)現(xiàn)本文算法,部分源代碼采用復(fù)旦大學(xué)計(jì)算機(jī)與信息技術(shù)系李榮陸提供的文本分類器系統(tǒng)源代碼。實(shí)驗(yàn)分為三個(gè)階段。

表1、表2實(shí)驗(yàn)結(jié)果表明,不論是在英文語(yǔ)料集還是中文語(yǔ)料集,使用SVM分類系統(tǒng)均能達(dá)到較好的分類效果,而實(shí)驗(yàn)中采用多項(xiàng)式核函數(shù)和Sigmoid函數(shù)進(jìn)行比較,經(jīng)證明,在多數(shù)情況下前者優(yōu)于后者。

4結(jié)束語(yǔ)

本文就文本分類的過(guò)程和關(guān)鍵技術(shù)進(jìn)行了論述,并就不同核函數(shù)下文本分類的效果進(jìn)行了實(shí)驗(yàn)驗(yàn)證,證明SVM是一種行之有效的文本分類方法。在今后的研究中,如何提高SVM算法的效率將是工作的重點(diǎn)。

參考文獻(xiàn):

[1] V. Vapnik. The nature of Statistical Learning Theory[J]. Springer, New York, 1995.

篇(7)

中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)03-0052-02

1 概述

隨著信息化時(shí)代的到來(lái),計(jì)算機(jī)網(wǎng)絡(luò)以飛快的速度發(fā)展起來(lái),用戶規(guī)模呈現(xiàn)出爆炸式的增長(zhǎng)趨勢(shì),且對(duì)網(wǎng)絡(luò)的通信質(zhì)量要求越來(lái)越高;與此同時(shí),基于網(wǎng)絡(luò)的各種軟件也層出不窮,大量不同類型的應(yīng)用軟件導(dǎo)致了在網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)類型的差異性較之以往大大增加了,傳輸?shù)膹?fù)雜性也隨之提高。在此情況下,如何提供一種更加符合網(wǎng)絡(luò)現(xiàn)狀的管理方法,向用戶提供更加符合其需求的通信服務(wù)成為了當(dāng)前計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域研究的重點(diǎn)內(nèi)容。在諸多的研究課題中,對(duì)網(wǎng)絡(luò)流量的科學(xué)分類受到了廣泛的關(guān)注,通過(guò)高質(zhì)量的流量分類,可以追溯用戶的活動(dòng)情況,從而在一定范圍內(nèi)判斷當(dāng)前數(shù)據(jù)的傳輸狀況,并可在此基礎(chǔ)上實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)資源的QoS(Quality of Service)調(diào)度,進(jìn)而為網(wǎng)絡(luò)的維護(hù)和后續(xù)擴(kuò)張?zhí)峁┛煽康囊罁?jù)。除此之外,流量分類還可在網(wǎng)絡(luò)安全、用戶識(shí)別、寬帶流量計(jì)費(fèi)等方面發(fā)揮重要的作用。

傳統(tǒng)的流量分類方式是由IANA提出的基于端口號(hào)的識(shí)別方式,該方式在以往應(yīng)用服務(wù)種類不多的情況下是較為實(shí)用的,即根據(jù)熟知端口號(hào)識(shí)別有限數(shù)量的不同類型的應(yīng)用服務(wù)進(jìn)程,但隨著網(wǎng)絡(luò)規(guī)模的飛速增長(zhǎng),尤其是隨著P2P對(duì)等網(wǎng)絡(luò)的大發(fā)展,使得用戶數(shù)據(jù)的類型與日俱增,眾多的進(jìn)程啟用了大量的隨機(jī)端口號(hào),這對(duì)數(shù)據(jù)流量的識(shí)別是非常不利的,未來(lái)必須加以改進(jìn)。

第二種方式是基于特征字段識(shí)別的,在早期該字段并沒(méi)有得到充分的利用,而目前隨著數(shù)據(jù)類型識(shí)別需求的不斷提高,該字段也被越來(lái)越多的通信服務(wù)所采用,但隨之而來(lái)的問(wèn)題是該字段位于IP數(shù)據(jù)報(bào)的首部,這意味著需要在網(wǎng)絡(luò)層解決數(shù)據(jù)類型的差異問(wèn)題,在通信過(guò)程中該數(shù)據(jù)報(bào)經(jīng)過(guò)的路由器將不得不花費(fèi)大量的資源和時(shí)間來(lái)解析和識(shí)別該字段,這勢(shì)必會(huì)拖慢網(wǎng)絡(luò)通信效率,同時(shí)增加網(wǎng)絡(luò)擁塞的風(fēng)險(xiǎn)。目前在P2P對(duì)等網(wǎng)絡(luò)中此方法使用較多,但對(duì)于實(shí)時(shí)性要求較高的通信服務(wù)而言,此方法導(dǎo)致的通信時(shí)延過(guò)高,并且會(huì)隨著應(yīng)用層服務(wù)的改變而失效,表1給出了這兩種流量分類方式的對(duì)比分析。

表1 兩種傳統(tǒng)的流量分類方法對(duì)比

2 基于機(jī)器學(xué)習(xí)方法的流量分類

隨著網(wǎng)絡(luò)的發(fā)展,傳統(tǒng)方式已經(jīng)無(wú)法勝任對(duì)數(shù)據(jù)流量進(jìn)行合理的分類工作,這導(dǎo)致了數(shù)據(jù)沖突、資源耗費(fèi)、通信延遲、通信效率不斷降低等一系列問(wèn)題。因此,有研究人員將人工智能領(lǐng)域內(nèi)的機(jī)器學(xué)習(xí)機(jī)制引入到流量分類工作中,針對(duì)網(wǎng)絡(luò)流一些屬性的統(tǒng)計(jì)信息進(jìn)行識(shí)別,以提高流量分類的準(zhǔn)確性和快捷性,效果較為顯著,其算法過(guò)程如圖1所示:

圖1 基于機(jī)器學(xué)習(xí)方法的流量分類流程

算法步驟如下:

1)通過(guò)統(tǒng)計(jì)方法獲取流量的特征屬性最優(yōu)組合集

流量屬性集通過(guò)統(tǒng)計(jì)形成網(wǎng)絡(luò)流的數(shù)據(jù)包的包頭信息得到。在進(jìn)行統(tǒng)計(jì)分析之前,為了減少計(jì)算量,提高分析精確度,應(yīng)對(duì)數(shù)據(jù)包信息進(jìn)行篩選的預(yù)操作,其目的是將與分類需求相關(guān)的屬性盡可能的保留下來(lái),反之則篩除,從而形成所謂的最有屬性集合,隨后在針對(duì)此集合進(jìn)行分析,實(shí)現(xiàn)事半功倍的效果。在此特征選擇的過(guò)程中可以采用多種優(yōu)化算法,如快速統(tǒng)計(jì)過(guò)濾法FCBF、順序前進(jìn)法SFS、相關(guān)性特征選擇CFS和遺傳算法GA等。

2)采用機(jī)器學(xué)習(xí)方法進(jìn)行分類

機(jī)器學(xué)習(xí)屬于人工智能領(lǐng)域內(nèi)的一個(gè)分支,也存在多種不同的優(yōu)化算法,目前在流量分類工作中得到應(yīng)用的優(yōu)化算法有K-近鄰K-NN、樸素貝葉斯方法NB、支持向量機(jī)SVM等。其中K-NN方法是最早得到應(yīng)用的一種優(yōu)化算法,分析結(jié)果較為準(zhǔn)確,但缺點(diǎn)是計(jì)算量偏大,且魯棒性較低,受干擾影響較大,這對(duì)實(shí)時(shí)性和穩(wěn)定性要求都很高的網(wǎng)絡(luò)通信而言無(wú)疑是一大障礙,因此其應(yīng)用規(guī)模相對(duì)有限;NB算法也是早期在網(wǎng)絡(luò)流量分類得到應(yīng)用的機(jī)器學(xué)習(xí)方法,其缺點(diǎn)在于算法得出的分析結(jié)果的質(zhì)量高低存在一定的不可知性,若樣本選取的合理,則該算法相對(duì)可靠,若樣本分布質(zhì)量不高,則該算法得出的分類結(jié)果往往也偏離真實(shí)情況;SVM可取得較高的分類準(zhǔn)確率,但必須事先標(biāo)記流量的應(yīng)用類型,因此不能適應(yīng)完全意義上的實(shí)時(shí)分類。

基于流統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)分類方法收到的外界干擾較小,且不需要執(zhí)行繁瑣耗時(shí)的數(shù)據(jù)報(bào)首部解析工作,對(duì)于P2P網(wǎng)絡(luò)中出現(xiàn)的大量端口號(hào)也可以不受其影響,平均準(zhǔn)確率比以上其他算法都要好,能夠準(zhǔn)確的識(shí)別多個(gè)不同類型的數(shù)據(jù)流量,同時(shí)對(duì)于異常流量(如非法的數(shù)據(jù)流量)也可以實(shí)現(xiàn)一定程度的識(shí)別和判斷。但其缺點(diǎn)是敏感度過(guò)高,對(duì)于網(wǎng)絡(luò)的動(dòng)態(tài)變化往往會(huì)出現(xiàn)過(guò)度響應(yīng),將原先正常的數(shù)據(jù)流量標(biāo)注為異常點(diǎn),從而導(dǎo)致系統(tǒng)的誤判,另一方面,該算法實(shí)現(xiàn)起來(lái)也相對(duì)復(fù)雜,需要進(jìn)一步改進(jìn)。

3 混合模式的流量分類方案

3.1 方案流程分析

本設(shè)計(jì)將傳統(tǒng)的分類方法和機(jī)器學(xué)習(xí)機(jī)制有機(jī)結(jié)合,對(duì)端口識(shí)別的流量分類模式進(jìn)行改進(jìn),形成了一種新型的混合型流量分類方法,既保留了基于端口號(hào)識(shí)別模式的簡(jiǎn)單、低開(kāi)銷的優(yōu)點(diǎn),又有效地利用了機(jī)器學(xué)習(xí)機(jī)制的自適應(yīng)性強(qiáng)、準(zhǔn)確性高的優(yōu)勢(shì),明顯地改善了網(wǎng)絡(luò)流量分類的效率和可靠性,算法流程如圖2所示。

圖2 改進(jìn)后的流量分類算法流程

混合模式的流量分類方案具體實(shí)現(xiàn)過(guò)程如下。

1)對(duì)流量樣本采用屬性選擇方法選出最優(yōu)屬性集,降低算法輸入向量維數(shù)。

2)與常用協(xié)議的默認(rèn)端口號(hào)匹配,實(shí)現(xiàn)粗分。若匹配成功則可不必啟用機(jī)器學(xué)習(xí)機(jī)制進(jìn)行后續(xù)的分類,節(jié)約了工作量。

3)進(jìn)入細(xì)分環(huán)節(jié),此環(huán)節(jié)是為了進(jìn)一步提高對(duì)流量分類的精確性而設(shè)定,主要采用基于自組織映射網(wǎng)絡(luò)的分類方法來(lái)完成。根據(jù)輸出標(biāo)簽確定某一流量類別分布在port flow映射圖或non-port flow映射圖上。結(jié)合訓(xùn)練樣本,確定輸出映射圖中相應(yīng)區(qū)域的流量類型。

3.2 自組織映射

在本環(huán)節(jié),采用深度學(xué)習(xí)算法中著名的神經(jīng)網(wǎng)絡(luò)算法來(lái)實(shí)現(xiàn)進(jìn)一步的優(yōu)化,該算法具有識(shí)別能力強(qiáng)、自適應(yīng)度高等優(yōu)點(diǎn),非常適合用來(lái)對(duì)數(shù)據(jù)流量進(jìn)行準(zhǔn)確分類,可以很好地解決對(duì)非線性曲面的逼近,其收斂速度遠(yuǎn)高于傳統(tǒng)分類方法。

自組織映射SOM網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中的一種常用算法,屬于無(wú)人監(jiān)督的競(jìng)爭(zhēng)型神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)中的各個(gè)節(jié)點(diǎn)模擬為神經(jīng)元節(jié)點(diǎn),而在該網(wǎng)絡(luò)中傳輸?shù)母鱾€(gè)信息狀態(tài)則模擬為神經(jīng)信號(hào);該算法最大的特點(diǎn)就是將高維的輸入流量樣本以拓?fù)溆行虻姆绞阶儞Q到二維的離散空間上,其輸出分類結(jié)果可以直觀的以棋盤(pán)狀的二維平面陣顯示。根據(jù)此規(guī)律,可將SOM網(wǎng)絡(luò)用于對(duì)輸入的數(shù)據(jù)包特征信息的分類工作中,實(shí)現(xiàn)樣本的自動(dòng)聚類,同時(shí)可方便的識(shí)別新的數(shù)據(jù)類型和異常數(shù)據(jù)類型,其具體過(guò)程如下:

設(shè)輸入樣本[X=(x1,x2,…,xn)T],權(quán)向量為[Wj=(wj1,wj2,…,wjn)T(j=1,2,…m)],

其中n為輸入樣本的維數(shù),m為映射圖神經(jīng)元數(shù)量。對(duì)樣本和權(quán)向量進(jìn)行歸一化處理,得到[X]和[Wj],通過(guò)SOM神經(jīng)網(wǎng)絡(luò)執(zhí)行以下兩個(gè)步驟

1)選擇競(jìng)爭(zhēng)占優(yōu)的神經(jīng)元

[dj*=minj∈1,2,…,mX-Wj] (1)

2)計(jì)算該類神經(jīng)元和與之相鄰的其他節(jié)點(diǎn)的網(wǎng)絡(luò)權(quán)值

[Wj*(t+1)=Wj*(t)+η(t)N(t)(X-Wj*(t))] (2)

式(2)中,t為學(xué)習(xí)次數(shù),[η(t)]為學(xué)習(xí)成功率,[N(t)]為獲勝的鄰域。

做完了準(zhǔn)備工作后,SOM網(wǎng)絡(luò)就可將所有權(quán)值W轉(zhuǎn)化為在[-1,1]區(qū)間的隨機(jī)數(shù),并根據(jù)此選擇一個(gè)流量樣本n,解析其特征屬性并送至神經(jīng)網(wǎng)絡(luò)的輸入接口,設(shè)置初始t=0,因此有N(0)和[η(0)]。輸出層各神經(jīng)元通過(guò)式(1)全局搜索最接近的優(yōu)勝神經(jīng)元j*。按式(2),對(duì)j*及其鄰域內(nèi)的所有神經(jīng)元調(diào)整權(quán)值,然后縮小鄰域[N(t)],減小學(xué)習(xí)率[η(t)],重新調(diào)整鄰域內(nèi)神經(jīng)元的權(quán)值直到學(xué)習(xí)率衰減為0。當(dāng)算法運(yùn)行到這一步時(shí),若流量樣本集合不為空集,則可繼續(xù)執(zhí)行下去,在非空集合內(nèi)隨機(jī)選擇一樣本,重新執(zhí)行本輪的學(xué)習(xí)過(guò)程,直至所有樣本均完成訓(xùn)練,此時(shí)就可生成一張完整的流量類別映射圖,最后根據(jù)樣本激活神經(jīng)元的位置可判斷流量類別,實(shí)現(xiàn)數(shù)據(jù)流量的精確分類。

4 結(jié)束語(yǔ)

目前,在網(wǎng)絡(luò)流量分類的研究工作中,更多地傾向于將優(yōu)秀的智能算法同以往傳統(tǒng)的分類方法相結(jié)合的研究路線,其中

很多優(yōu)化算法仍舊處于起步階段,從理論上看,基于流統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)的方法自適應(yīng)性強(qiáng),可擴(kuò)展性好,可靠性也有足夠的保障,應(yīng)用在流量分類領(lǐng)域內(nèi)是非常合適的,但其計(jì)算量較大仍舊是該算法推廣過(guò)程中遇到的主要障礙,相信隨著人工智能領(lǐng)域研究的不斷突破,會(huì)出現(xiàn)更多的優(yōu)秀方法應(yīng)用在網(wǎng)絡(luò)流量分類工作中,進(jìn)一步增強(qiáng)流量分類的工作效率,為廣大用戶提供更高|量的數(shù)據(jù)通信服務(wù)。

參考文獻(xiàn):

[1] 徐鵬,劉瓊,林森.基于支持向量機(jī)的Internet流量分類研究[J].計(jì)算機(jī)研究與發(fā)展,2009,46(3): 407-414.

[2] 王琳.面向高速網(wǎng)絡(luò)的智能化應(yīng)用分類的研究[D].濟(jì)南:濟(jì)南大學(xué),2008.

篇(8)

DOIDOI:10.11907/rjdk.162026

中圖分類號(hào):TP319

文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2016)011013403

0 引言

中國(guó)是世界上最大的煙草生產(chǎn)國(guó)和消費(fèi)國(guó)[1]。煙草銷售是煙草行業(yè)管理中最為關(guān)鍵的部分,準(zhǔn)確的煙草銷售預(yù)測(cè)能為煙草生產(chǎn)、運(yùn)輸、配送提供指導(dǎo),而要進(jìn)行準(zhǔn)確的煙草銷售預(yù)測(cè)必須找到合適的預(yù)測(cè)方法。因此,如何設(shè)計(jì)高精度的煙草銷售預(yù)測(cè)方法是煙草行業(yè)管理的重要課題。

傳統(tǒng)煙草銷售量預(yù)測(cè)方法的研究主要集中在對(duì)煙草零售經(jīng)營(yíng)者訂單的管理分析中,而且采用銷售人員意見(jiàn)匯總法、德?tīng)柗品ǎń?jīng)理及員工的意見(jiàn))等為主的人工預(yù)測(cè)方法[2]。這種人工預(yù)測(cè)方法業(yè)務(wù)流程較多,浪費(fèi)大量的人力、物力,并且還可能引起煙草資源分配的不公平,難以滿足市場(chǎng)需求。從機(jī)器學(xué)習(xí)的角度上看,煙草銷售量的預(yù)測(cè)屬于回歸問(wèn)題[3],而回歸包括線性回歸和非線性回歸。文獻(xiàn)[4]在對(duì)煙草銷售量數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,提出了一種線性預(yù)測(cè)模型,但由于煙草銷售量受季節(jié)、人口、市場(chǎng)、節(jié)假日等一系列因素的共同影響,并不適合采用線性回歸方法進(jìn)行預(yù)測(cè)。在非線性回歸方法中,較為常用的有神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)。文獻(xiàn)[5]基于BP神經(jīng)網(wǎng)絡(luò)對(duì)煙草銷售量進(jìn)行建模并預(yù)測(cè),而神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,不僅泛化能力較差,而且存在局部極小點(diǎn)問(wèn)題[6],因此神經(jīng)網(wǎng)絡(luò)雖然對(duì)原始數(shù)據(jù)的擬合能力較強(qiáng),但對(duì)未來(lái)數(shù)據(jù)的推廣能力較差,而對(duì)未來(lái)數(shù)據(jù)的推廣能力往往更能反映學(xué)習(xí)機(jī)器的實(shí)用價(jià)值。支持向量機(jī)基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化,泛化能力強(qiáng)且預(yù)測(cè)精度高。因此,本文采用支持向量機(jī)方法對(duì)煙草銷售量進(jìn)行建模預(yù)測(cè)。

1 支持向量回歸機(jī)

2 預(yù)測(cè)方法

2.1 數(shù)據(jù)預(yù)處理

本文收集到了云煙品牌一個(gè)品類2006年1月~2011年10月共6年的銷售數(shù)據(jù),銷售數(shù)據(jù)信息中包括銷售量、銷售日期(年月日)、倉(cāng)庫(kù)編號(hào)、發(fā)票信息、審核人信息等,其中對(duì)銷售量預(yù)測(cè)影響最大的是銷售日期及對(duì)應(yīng)的銷售量。由于中國(guó)的香煙銷售對(duì)陰歷呈現(xiàn)出更強(qiáng)的規(guī)律性,因此將銷售統(tǒng)計(jì)數(shù)據(jù)轉(zhuǎn)換為以陰歷月為標(biāo)準(zhǔn)。

2.2 數(shù)據(jù)歸一化處理

由表1可以看出,各列數(shù)據(jù)屬性不同,數(shù)值范圍相差較大。為避免數(shù)值范圍較大的屬性控制數(shù)值范圍較小的屬性,使數(shù)據(jù)具有統(tǒng)一性和可比性,將屬性值都?xì)w一化[10]為[0,1]之間。歸一化所用公式為:

2.3 模型定階

由于煙草銷售量預(yù)測(cè)屬于經(jīng)濟(jì)預(yù)測(cè),因此它不僅與當(dāng)前日期有關(guān),更與之前的銷售信息有關(guān)。為確定當(dāng)前銷售量與前多少個(gè)月的銷售信息關(guān)系最大,需要通過(guò)拓階[11]的方法來(lái)確定。

設(shè)煙草銷售量數(shù)據(jù)的一個(gè)樣本為{yi,yeari,monthi},yi為第i個(gè)樣本中的煙草銷售量,yeari為當(dāng)前年份,monthi為當(dāng)前月份。其中,yeari和monthi為樣本的自變量,yi為樣本的因變量。通過(guò)拓階能夠更為準(zhǔn)確地得到自變量和因變量的函數(shù)依賴關(guān)系。當(dāng)階數(shù)為n時(shí),表示將前n個(gè)樣本中的信息添加到當(dāng)前樣本中的自變量中。即用前n個(gè)月的銷售信息和當(dāng)前年月來(lái)預(yù)測(cè)當(dāng)前銷售量。此時(shí),自變量總數(shù)為(3×n+2),其中n為階數(shù)。通過(guò)SVM由低階到高階逐步進(jìn)行拓階,模型每拓一階,自變量相應(yīng)地增加 3個(gè)。對(duì)于每一次的拓階,以MSE最小為標(biāo)準(zhǔn)決定是否接受拓階。設(shè)SVM(n)為拓階n次后的模型,SVM(n+1)為拓階n+1次后的模型,比較兩者的MSE大小,如果SVM(n+1)的MSE小于SVM(n)的MSE,表示接受本次拓階,并進(jìn)行下一步拓階;如果SVM(n+1)的MSE大于SVM(n)的MSE,表示不接受本次拓階,并停止拓階,最終得到最優(yōu)階數(shù)n。通過(guò)對(duì)煙草數(shù)據(jù)的拓階,得到拓階結(jié)果如圖2所示。

2.4 回歸模型的參數(shù)選擇

當(dāng)訓(xùn)練模型確定后,通過(guò)支持向量回歸機(jī)進(jìn)行預(yù)測(cè)。由于徑向基核函數(shù)的準(zhǔn)確率較高,并且大多數(shù)SVM默認(rèn)的核函數(shù)也是徑向基核函數(shù)[12],本文亦采用徑向基核函數(shù)。

3 實(shí)驗(yàn)結(jié)果與分析

以云煙數(shù)據(jù)集為例,選擇2006年1月-2010年12月的銷售量數(shù)據(jù)為訓(xùn)練樣本,以2011年1-10月的銷售量數(shù)據(jù)為測(cè)試樣本。在本文算法實(shí)現(xiàn)過(guò)程中,實(shí)驗(yàn)環(huán)境配置如表2所示。

4 結(jié)語(yǔ)

通過(guò)預(yù)測(cè)煙草銷售量可以提前了解煙草的銷售動(dòng)態(tài),為煙草物流、倉(cāng)儲(chǔ)等部門提供決策依據(jù)。本文基于支持向量機(jī)建立煙草銷售預(yù)測(cè)的多維時(shí)間序列模型。實(shí)驗(yàn)證明,根據(jù)本文方法建立的模型所預(yù)測(cè)的結(jié)果與實(shí)際結(jié)果基本一致,能夠比較準(zhǔn)確地反映煙草銷售量的變化趨勢(shì)。對(duì)比實(shí)驗(yàn)也證明,與其它幾種方法相比,本文方法預(yù)測(cè)誤差最小。綜上,本文所述方法是合理有效的,可以應(yīng)用到實(shí)際煙草銷售量預(yù)測(cè)中。

參考文獻(xiàn):

[1] 蔣德B.我國(guó)煙草業(yè)國(guó)際化戰(zhàn)略研究[J].北方經(jīng)濟(jì),2012(14):9495.

[2] 利普?科特勒,洪瑞云,梁紹明,等.市場(chǎng)營(yíng)銷管理 [M].亞洲版?2版.北京:中國(guó)人民大學(xué)出版社,2001.

[3] 鄭逢德,張鴻賓.拉格朗日支持向量回歸的有限牛頓算法[J].計(jì)算機(jī)應(yīng)用,2012,32(9):25042507.

[4] 張素平.基于乘法模型的內(nèi)蒙古烏蘭察布市卷煙總銷量預(yù)測(cè)研究[J].內(nèi)蒙古科技與經(jīng)濟(jì),2012(21):3335.

[5] 仲東亭,張h.BP神經(jīng)網(wǎng)絡(luò)對(duì)煙草銷售量預(yù)測(cè)方法的改進(jìn)研究[J].工業(yè)技術(shù)經(jīng)濟(jì),2007,26(9):115118.

[6] 劉蘇蘇,孫立民.支持向量機(jī)與RBF神經(jīng)網(wǎng)絡(luò)回歸性能比較研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(12):42024205.

[7] 鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘的新方法――支持向量機(jī)[M].北京:科學(xué)出版社,2004

[8] 肖建,于龍,白裔峰.支持向量回歸中核函數(shù)和超參數(shù)選擇方法綜述[J].西南交通大學(xué)學(xué)報(bào),2008,43(3):297303.

[9] 單黎黎,張宏軍,張睿,等.基于主導(dǎo)因子法的裝備維修保障人員調(diào)度值預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用,2012,32(8):23642368.

[10] 彭麗芳,孟志青,姜華,等.基于時(shí)間序列的支持向量機(jī)在股票預(yù)測(cè)中的應(yīng)用[J].計(jì)算技術(shù)與自動(dòng)化,2006,25(3):8891.

[11] 向昌盛,周子英.基于支持向量機(jī)的害蟲(chóng)多維時(shí)間序列預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用研究,2010,27(10):36943697.

[12] 譚征,孫紅霞,王立宏,等.中文評(píng)教文本分類模型的研究[J].煙臺(tái)大學(xué)學(xué)報(bào):自然科學(xué)與工程版,2012,25(2):122126.

[13] CHERKASSKY V,MULIER F.Learning from data: concepts,theory and methods[M].NY:JohnViley&Sons,1997.

[14] YONG M,XIAOBO Z,DAOYING P,et al.Parameters selection in gene selection using Gaussian kernel support vector machines by genetic algorithm[J].Journal of zhejiang university science B,2005,6(10):961973.

篇(9)

中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)04-1020-02

自動(dòng)分類技術(shù)是利用計(jì)算機(jī)系統(tǒng)對(duì)文本集按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)類別標(biāo)記,分類工具根據(jù)文檔的信息將其分配到已經(jīng)存在的類別中,也稱“主題”。

隨著網(wǎng)絡(luò)的迅猛發(fā)展,網(wǎng)頁(yè)、電子郵件、數(shù)據(jù)庫(kù)、聊天室和數(shù)字圖書(shū)館等電子文本成幾何級(jí)數(shù)不斷增長(zhǎng),處理這些海量數(shù)據(jù)的一個(gè)重要方法就是將它們分類。當(dāng)我們?yōu)g覽一個(gè)網(wǎng)站查找信息時(shí),如果網(wǎng)頁(yè)凌亂的堆積在一起沒(méi)有類別供我們查找,會(huì)使我們很難找到自己所需的信息?,F(xiàn)在,大型網(wǎng)站都將網(wǎng)頁(yè)分類,以方便人們?yōu)g覽。比如,Yahoo就將網(wǎng)頁(yè)放在一個(gè)巨大的層次分類結(jié)構(gòu)中,通過(guò)組裝維護(hù)這些類別,可以幫助人們查找知識(shí)和信息。網(wǎng)頁(yè)自身并沒(méi)有類型區(qū)分,這就需要人工分類,將網(wǎng)頁(yè)、郵件等各種格式的文檔經(jīng)過(guò)文法分析都可以轉(zhuǎn)化為純文本,而自動(dòng)文本分類系統(tǒng)可以幫助人們檢查文本、判斷文本所屬類別。

1 自動(dòng)分類技術(shù)的現(xiàn)狀

到目前為止,國(guó)外已在自動(dòng)分類領(lǐng)域進(jìn)行了較為深入的研究。已經(jīng)從最初的可行性基礎(chǔ)研究經(jīng)歷了實(shí)驗(yàn)性研究進(jìn)入實(shí)用階段,并在郵件分類、電子會(huì)議、信息過(guò)濾等方面取得了較為廣泛的應(yīng)用[1]。

國(guó)內(nèi)對(duì)自動(dòng)分類技術(shù)的研究相對(duì)較晚。1986年,上海交通大學(xué)電腦應(yīng)用技術(shù)研究所開(kāi)發(fā)的中文科技文獻(xiàn)(計(jì)算機(jī)類)實(shí)驗(yàn)性分類系統(tǒng)。1995年,清華大學(xué)電子工程系研制的漢語(yǔ)語(yǔ)料自動(dòng)分類系統(tǒng)。1998年,東北大學(xué)計(jì)算機(jī)系的新聞?wù)Z料漢語(yǔ)文本自動(dòng)分類模型。1999年,由鄒濤等人開(kāi)發(fā)的中文技術(shù)文本分類系統(tǒng)CTDS。除此之外,國(guó)內(nèi)眾多學(xué)者對(duì)中文文本分類算法也進(jìn)行了深入研究,黃萱箐等提出的基于機(jī)器學(xué)習(xí)的、獨(dú)立于語(yǔ)種的文本分類模型[3],周永庚等研究的隱含語(yǔ)義索引在中文文本處理中的應(yīng)用[4],李榮陸等的最大熵模型[5],張劍等提出的一種以WordNet語(yǔ)言本體庫(kù)為基礎(chǔ),建立文本的概念向量空間模型作為文本特征向量的特征提取方法[6],朱靖波等將領(lǐng)域知識(shí)引入文本分類,利用領(lǐng)域知識(shí)作為文本特征,提出一種基于知識(shí)的文本分類方法等[7]。

從20世紀(jì)90年代以來(lái),基于機(jī)器學(xué)習(xí)的文本分類逐漸成為文本分類的主流技術(shù)。近年來(lái)文本分類技術(shù)取得了很大的進(jìn)展,提出了多種特征抽取方法和分類方法,如回歸模型、支持向量機(jī)、最大熵模型等,建立了OHSUMED,Reuters等開(kāi)放的分類語(yǔ)料庫(kù)。

2 自動(dòng)分類技術(shù)的類型

根據(jù)目的性,信息自動(dòng)分類包括自動(dòng)聚類和自動(dòng)歸類兩種類型。

2.1 自動(dòng)聚類

由計(jì)算機(jī)系統(tǒng)對(duì)待分類文本進(jìn)行分析并提取有關(guān)的特征,然后對(duì)提取的特征進(jìn)行比較,根據(jù)一定規(guī)則將具有相同或相近特征的對(duì)象定義為一類。自動(dòng)聚類的目的是在已有信息中定義符合實(shí)際情況的類。在網(wǎng)站的非主要分類體系中,也可以用自動(dòng)聚類的方法自動(dòng)生成欄目?jī)?nèi)的類別。

2.2 自動(dòng)歸類

計(jì)算機(jī)系統(tǒng)對(duì)分類文本提取有關(guān)特征,然后與既定分類系統(tǒng)中對(duì)象所具有的公共特征進(jìn)行相關(guān)性比較。將對(duì)象歸入其特征最相近的類中。自動(dòng)歸類的目的是把各種信息納入已建立的分類系統(tǒng)中,用于搜索引擎或網(wǎng)站導(dǎo)航系統(tǒng)的管理和數(shù)據(jù)更新。根據(jù)使用的技術(shù),自動(dòng)歸類通常分為基于詞的自動(dòng)分類(詞典法)和基于專家系統(tǒng)的自動(dòng)分類(知識(shí)法)兩大類,也有人將界于兩種技術(shù)之間的稱為基于信息的自動(dòng)分類。

3 文檔分類關(guān)鍵技術(shù)分類及方法

現(xiàn)有的文本分類技術(shù)主要采用3 種方法:基于連接的方法、基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。

3.1 基于連接的文本分類方法

基于連接的方法主要是利用人工神經(jīng)網(wǎng)絡(luò)來(lái)模擬人腦神經(jīng)網(wǎng)絡(luò),并期望其能像大腦一樣地運(yùn)作,一樣地學(xué)習(xí),從而產(chǎn)生智慧。這種方法可以實(shí)現(xiàn)信息的分布存取,運(yùn)算的全局并行,并且可在進(jìn)行非線性處理的同時(shí)具有高容錯(cuò)性等特點(diǎn),適用于學(xué)習(xí)一個(gè)復(fù)雜的非線性映射。但是使用他學(xué)習(xí)所形成的知識(shí)結(jié)構(gòu)是人所難以理解的,系統(tǒng)本身也不具有良好的透明性。

3.2 基于規(guī)則的文本分類方法

基于規(guī)則的方法本質(zhì)上是一種確定性的演繹推理方法。其優(yōu)點(diǎn)在于他能根據(jù)上下文對(duì)確定性事件進(jìn)行定性描述,并且能充分利用現(xiàn)有的語(yǔ)言學(xué)成果。其成立的前提是有大量的知識(shí),而這些知識(shí)必須是人類專家總結(jié)出來(lái)的。由于必須有人的參與,這種方法側(cè)重于知識(shí)的可理解性和可讀性,對(duì)于有些統(tǒng)計(jì)方法無(wú)法解決的問(wèn)題,利用基于規(guī)則的方法可以很容易地解決。但是,這種方法在不確定性事件的描述、規(guī)則之間的相容性等方面存在一些缺陷和限制。常用的基于規(guī)則的方法有決策樹(shù)、關(guān)聯(lián)規(guī)則等。

3.3 基于統(tǒng)計(jì)的文本分類方法

基于統(tǒng)計(jì)的方法本質(zhì)上是一種非確定性的定量推理方法。基于統(tǒng)計(jì)的方法的優(yōu)勢(shì)在于他的全部知識(shí)是通過(guò)對(duì)大規(guī)模語(yǔ)料庫(kù)分析得到的,可以取得很好的一致性和非常高的覆蓋率,對(duì)語(yǔ)言處理提供了比較客觀的數(shù)據(jù)依據(jù)和可靠的質(zhì)量保證。但由于其是基于概率的一種方法,因此必然會(huì)對(duì)小類別文本即小概率事件造成忽視。常用的基于統(tǒng)計(jì)的方法有KNN、樸素貝葉斯、類中心向量、回歸模型、支持向量機(jī)、最大熵模型等。

3.4 經(jīng)典文本分類方法

3.4.1 KNN算法

KNN算法即k- Nearest Neighbor 分類方法,是一種穩(wěn)定而有效的文本分類方法。采用KNN 方法進(jìn)行文檔分類的過(guò)程如下:對(duì)于某一給定的測(cè)試文檔d,在訓(xùn)練集中,通過(guò)相似度找到與之最相似的k個(gè)訓(xùn)練文檔。在此基礎(chǔ)上,給每個(gè)文檔類打分,分值為k個(gè)訓(xùn)練文檔中屬于該類的文檔與測(cè)試文檔之間的相似度之和。也就是說(shuō), 如果在這k個(gè)文檔中,有多個(gè)文檔屬于一個(gè)類,則該類的分值為這些文檔與測(cè)試文檔之間的相似度之和。對(duì)這k個(gè)文檔所屬類的分值統(tǒng)計(jì)完畢后,即按分值進(jìn)行排序。還應(yīng)當(dāng)選定一個(gè)閾值,只有分值超過(guò)閾值的類才予考慮。測(cè)試文檔屬于超過(guò)閾值的所有類。形式化表示為:

■(1)

其中,dj∈ci時(shí)y(dj,ci)=1;dj?埸c(diǎn)i時(shí)y(dj,ci) 。

bi為閾值,Sim(d,dj)為文檔d和dj的相似度,score(d,ci)為測(cè)試文檔d屬于ci類的分值。一般的,bi是一個(gè)有待優(yōu)化的值可以通過(guò)一個(gè)驗(yàn)證文檔集來(lái)進(jìn)行調(diào)整。驗(yàn)證文檔集是訓(xùn)練文檔集的一部分,根據(jù)公式(1)可確定測(cè)試文檔的類別。很顯然,對(duì)于每一個(gè)測(cè)試文檔,必須求解其和訓(xùn)練文檔庫(kù)中所有文檔的相似度。因此, KNN方法的時(shí)間復(fù)雜度為o(|D|ni)。其中,|D|和ni分別為訓(xùn)練文檔總數(shù)和測(cè)試文檔總數(shù)。

3.4.2 SVM

支持向量機(jī)(Support Vector Machine,SVM)是在統(tǒng)計(jì)學(xué)習(xí)理的基礎(chǔ)上發(fā)展而來(lái)的一種機(jī)器學(xué)習(xí)方法, 該模型是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理的方法,把原始數(shù)據(jù)集合壓縮為支持向量集合,其基本思想是構(gòu)造出一個(gè)超平面作為決策平面,使正負(fù)模式之間的空白為最大化。在解決小樣本、非線性及高維模式識(shí)別問(wèn)題中SVM表現(xiàn)出了許多特有的優(yōu)勢(shì), 并在很大領(lǐng)域得到了成功的應(yīng)用,如:人臉識(shí)別、手寫(xiě)字體識(shí)別、文本分類等。其中,SVM在文本分類方面的表現(xiàn)尤為突出。

SVM 的基本思想可用圖1的兩維情況進(jìn)行說(shuō)明。圖1中,圓形實(shí)心點(diǎn)和菱形實(shí)心點(diǎn)代表2類樣本,H為分類線,H1,H2分別為過(guò)各類中離分類線最近的樣本且平行于分類線的直線,他們之間的距離叫做分類間隔。所謂最優(yōu)分類線就是要求分類線不但能將兩類正確分開(kāi)(訓(xùn)練錯(cuò)誤率為0),而且使分類間隔最大。分類線方程為:

x?w+b=0

在此可以對(duì)他進(jìn)行歸一化,使得對(duì)線性可分的樣本集:

(xi,yi),i=1,…,n,x∈R4,y∈{+1,-1}

滿足:yi[(w.xi)+b]-1≥0 i=1,2,…n

此時(shí)分類間隔等于2/w, 使間隔最大等價(jià)于使w2最小。滿足式且使間距為w/2的分類面就叫做最優(yōu)分類面, H1 , H2上的訓(xùn)練樣本點(diǎn)就稱作支持向量。

基本的SVM是針對(duì)兩類分類問(wèn)題的,為了實(shí)現(xiàn)對(duì)多個(gè)類別的識(shí)別,需要對(duì)SVM進(jìn)行擴(kuò)展。常用的SVM多類分類方法有One-vs-Res, One-vs-One,ECOC( Error Correcting Output Coding)、DAGSVM和二叉樹(shù)等方法。實(shí)驗(yàn)結(jié)果表明DAGSVM 方法要優(yōu)于其他2 種方法。Weston和Watkins[2]對(duì)SVM的理論進(jìn)行了擴(kuò)充,使其一次就可以完成多類分類,但是實(shí)驗(yàn)結(jié)果顯示其分類查準(zhǔn)率要低于One-vs-Rest 和One-vs-One方法。

4 技術(shù)的發(fā)展趨勢(shì)與展望

本文介紹了文本分類的研究背景,國(guó)內(nèi)外關(guān)于文本分類技術(shù)研究的最新動(dòng)態(tài),總結(jié)了近年來(lái)文本分類研究的關(guān)鍵技術(shù)。文本分類技術(shù)有著廣泛的應(yīng)用,逐漸趨于實(shí)用。

但隨著自動(dòng)分類技術(shù)相關(guān)應(yīng)用的發(fā)展,及對(duì)其需求的不斷提升,文本分類技術(shù)仍有非常多的問(wèn)題值得研究:可靠、有效及快速的在線分類;基于語(yǔ)義度量的數(shù)據(jù)模型和分類方法;緩解樣本標(biāo)注瓶頸以及樣本數(shù)據(jù)分布帶來(lái)的影響等。隨著數(shù)據(jù)挖掘領(lǐng)域和機(jī)器學(xué)習(xí)理論、技術(shù)研究的不斷深入, 針對(duì)解決不同實(shí)際應(yīng)用和數(shù)據(jù)特征的問(wèn)題將成為文本分類相關(guān)研究,及其應(yīng)用的主要突破方向和攻克難點(diǎn)。

參考文獻(xiàn):

[1] 李榮陸.文本分類及相關(guān)技術(shù)研究[D].上海:復(fù)旦大學(xué),2005.

[2] 李應(yīng)紅.慰詢楷. 劉建勛.支持向量機(jī)的工程應(yīng)用[M].北京:兵器工業(yè)出版社,2004.

[3] 黃萱菁,吳立德,石崎洋之,等. 獨(dú)立于語(yǔ)種的文本分類方法[J].中文信息學(xué)報(bào),2000,14(6):1-7.

[4] 周水庚,關(guān)佶紅,胡運(yùn)發(fā). 隱含語(yǔ)義索引及其在中文文本處理中的應(yīng)用研究[J].小型微型計(jì)算機(jī)系統(tǒng),2001,22(2):239-244.

[5] 李榮陸,王建會(huì),陳曉云,胡運(yùn)發(fā)等. 使用最大熵模型進(jìn)行中文文本分類[J].計(jì)算機(jī)研究與發(fā)展.2005,42(1):94-101.

篇(10)

自80年代,我國(guó)工程項(xiàng)目管理事業(yè)得到了飛速發(fā)展,工程項(xiàng)目建設(shè)過(guò)程中的質(zhì)量、進(jìn)度和成本得到有效控制。施工企業(yè)的經(jīng)營(yíng)管理水平和項(xiàng)目經(jīng)理部的施工現(xiàn)場(chǎng)管理水平有了較大的提高。特別是《建設(shè)工程項(xiàng)目管理規(guī)范(GB/T50326一2001)》[1]的為我國(guó)的工程項(xiàng)目管理逐步向制度化、規(guī)范化、信息化邁進(jìn)提供了保證。但由于我國(guó)的工程項(xiàng)目管理起步較晚,在管理的信息化和管理手段的現(xiàn)代化方面距全面實(shí)現(xiàn)計(jì)算機(jī)輔助管理及咨詢決策尚有較大差距。

1 系統(tǒng)主要功能

CPMMIS的基本功能包括工程項(xiàng)目現(xiàn)場(chǎng)管理信息系統(tǒng)、公司的信息管理系統(tǒng)、公司的咨詢決策系統(tǒng)三大部分,三個(gè)系統(tǒng)運(yùn)行在一個(gè)共享信息的網(wǎng)絡(luò)平臺(tái)上。該系統(tǒng)的工作流程與目前工程項(xiàng)目管理的實(shí)際情況一致。它既能用于公司內(nèi)部管理(局域網(wǎng)),也能用于現(xiàn)場(chǎng)項(xiàng)目部的管理(單機(jī)或局域網(wǎng)),還能夠通過(guò)與Internet連接,實(shí)現(xiàn)公司對(duì)項(xiàng)目部的適時(shí)管理;具有一定的決策支持功能。

1.1 工程項(xiàng)目現(xiàn)場(chǎng)施工管理系統(tǒng)

工程項(xiàng)目現(xiàn)場(chǎng)施工管理的主要工作可以概括為“三控兩管一協(xié)調(diào)”,因此該部分主要是為各項(xiàng)目部提供輔助管理的功能模塊(日常管理、質(zhì)量管理、進(jìn)度管理、成本控制與結(jié)算管理、合同管理、生產(chǎn)要素管理等模塊),為正確作出決策提供保證,并按規(guī)定格式形成報(bào)表。

1)日常管理子系統(tǒng):主要完成施工準(zhǔn)備期、施工期、交(竣)工驗(yàn)收及保修期的項(xiàng)目管理工作。主要收集設(shè)計(jì)信息;施工準(zhǔn)備階段的管理信息(法律法規(guī)與部門規(guī)章、市場(chǎng)信息、自然條件);工程概況信息(工程實(shí)體概況、場(chǎng)地與環(huán)境概況、參與建設(shè)的各單位概況、施工合同、工程造價(jià)計(jì)算書(shū));施工信息(施工記錄、施工技術(shù)資料);項(xiàng)目管理信息(項(xiàng)目管理規(guī)劃大綱、項(xiàng)目管理實(shí)施規(guī)劃);施工過(guò)程項(xiàng)目管理各專業(yè)的信息(進(jìn)度控制、質(zhì)量控制、安全控制、成本控制、現(xiàn)場(chǎng)管理、合同管理);生產(chǎn)要素信息(材料管理、構(gòu)配件管理、工器具管理、人力資源、機(jī)械設(shè)備);項(xiàng)目結(jié)算信息;組織協(xié)調(diào)信息;竣工驗(yàn)收信息;考核評(píng)價(jià)信息;項(xiàng)目統(tǒng)計(jì)信息等。日常管理子系統(tǒng)的另一項(xiàng)工作是及時(shí)收集和處理從監(jiān)理、業(yè)主、分包、設(shè)計(jì)、材料供應(yīng)等單位送交的報(bào)告資料。為了及時(shí)、規(guī)范地處理這些報(bào)告,系統(tǒng)設(shè)置了大量的知識(shí)庫(kù)、模板庫(kù)、素材庫(kù),運(yùn)用基于神經(jīng)網(wǎng)絡(luò)的群體決策支持技術(shù)[2、3],幫助現(xiàn)場(chǎng)管理人員及時(shí)有效地處理有關(guān)報(bào)告資料。

2)質(zhì)量管理子系統(tǒng):主要完成質(zhì)量目標(biāo)確定;項(xiàng)目質(zhì)量計(jì)劃編制;項(xiàng)目質(zhì)量計(jì)劃實(shí)施。施工合同簽訂后,項(xiàng)目部應(yīng)索取設(shè)計(jì)圖紙和技術(shù)資料,指定專人管理并公布有效文件清單。單位工程、分部工程和分項(xiàng)工程開(kāi)工前,項(xiàng)目技術(shù)負(fù)責(zé)人應(yīng)向承擔(dān)施工的負(fù)責(zé)人或分包人進(jìn)行書(shū)面技術(shù)交底。對(duì)工程測(cè)量、材料的質(zhì)量、機(jī)械設(shè)備的質(zhì)量、工序質(zhì)量、特殊過(guò)程質(zhì)量、工程變更及施工中發(fā)生的質(zhì)量事故應(yīng)進(jìn)行有效控制和處理。同時(shí)建立和維護(hù)質(zhì)量檢驗(yàn)評(píng)定標(biāo)準(zhǔn)、進(jìn)行原材料質(zhì)量檢驗(yàn)、現(xiàn)場(chǎng)施工質(zhì)量檢查、分項(xiàng)(單元)工程質(zhì)量數(shù)據(jù)收集,分項(xiàng)工程、分部工程、單位工程、工程項(xiàng)目的質(zhì)量評(píng)定,施工質(zhì)量文檔管理,質(zhì)量報(bào)表與統(tǒng)計(jì)圖形輸出。另外,還包括質(zhì)量安全事故分析處理功能模塊,如事故調(diào)查分析、事故檢驗(yàn)分析、事故評(píng)價(jià)、事故處理等。

3)進(jìn)度管理子系統(tǒng):包括項(xiàng)目初始進(jìn)度(總進(jìn)度、單項(xiàng)工程進(jìn)度、分部工程進(jìn)度、關(guān)鍵工序施工進(jìn)度)數(shù)據(jù)的建立和維護(hù)、網(wǎng)絡(luò)計(jì)劃的形成和優(yōu)化、計(jì)劃進(jìn)度輸出、實(shí)際進(jìn)度統(tǒng)計(jì)、進(jìn)度的動(dòng)態(tài)跟蹤管理。在施工方案選擇、施工進(jìn)度計(jì)劃編制和施工平面圖設(shè)計(jì)中,系統(tǒng)運(yùn)用了基于神經(jīng)網(wǎng)絡(luò)的施工方案決策支持系統(tǒng)。

4)成本控制和結(jié)算子系統(tǒng):包括各類計(jì)量結(jié)算項(xiàng)目編碼和查詢(如清單項(xiàng)目、工程變更項(xiàng)目、工程索賠項(xiàng)目、其他需要結(jié)算的項(xiàng)目)。系統(tǒng)能根據(jù)每月分部分項(xiàng)成本的累計(jì)偏差和相應(yīng)的計(jì)劃目標(biāo)成本余額預(yù)測(cè)后期成本的變化趨勢(shì)和狀況,根據(jù)偏差原因制定改善成本控制的措施,控制下月施工任務(wù)的成本。并能用對(duì)比法分析影響成本節(jié)超的主要因素。在確定施工項(xiàng)目成本各因素對(duì)計(jì)劃成本影響的程度時(shí),可采用連環(huán)替代法或差額計(jì)算法進(jìn)行成本分析。

5)合同管理子系統(tǒng):包括合同分類、合同目錄一覽表、合同文本管理(如各類合同條款的建立、修改、查詢)、分包工程管理、工程變更管理、工程索賠管理、工程暫停及復(fù)工管理、工程延期及工程延誤的處理以及爭(zhēng)端的調(diào)解等。另外還能完成合同數(shù)據(jù)統(tǒng)計(jì)、匯總、查詢、打印,與合同管理有關(guān)的資料的收集與分析。

1.2 公司信息管理系統(tǒng)

篇(11)

在針對(duì)金融學(xué)領(lǐng)域進(jìn)行實(shí)證研究時(shí),傳統(tǒng)研究方法通常選擇結(jié)構(gòu)化數(shù)據(jù)作為研究依據(jù),常見(jiàn)類型如股票市場(chǎng)數(shù)據(jù)、財(cái)務(wù)報(bào)表等。大數(shù)據(jù)技術(shù)發(fā)展后,計(jì)算機(jī)技術(shù)逐漸成熟,在實(shí)證研究中可獲取更加多樣化的數(shù)據(jù),非結(jié)構(gòu)化文本大數(shù)據(jù)得到應(yīng)用,例如:P2P網(wǎng)絡(luò)借貸文本、財(cái)經(jīng)媒體報(bào)道、網(wǎng)絡(luò)搜索指數(shù)、上市公司披露文本、社交網(wǎng)絡(luò)文本等。本文探討了相關(guān)文本可讀性、相似性、語(yǔ)氣語(yǔ)調(diào)與語(yǔ)義特征等。

1.在金融學(xué)研究中文本大數(shù)據(jù)的挖掘方法

傳統(tǒng)研究方法通常采用人工閱讀方法對(duì)文本信息進(jìn)行識(shí)別,因?yàn)槲谋緮?shù)量龐大、信息構(gòu)成復(fù)雜,人工識(shí)別效率較低,而且信息識(shí)別質(zhì)量不穩(wěn)定,信息識(shí)別效果受到閱讀者專業(yè)素養(yǎng)、理解能力等多方面因素影響。計(jì)算機(jī)技術(shù)發(fā)展后逐漸被應(yīng)用于分析文本大數(shù)據(jù),利用計(jì)算機(jī)技術(shù)獲取語(yǔ)料,對(duì)文本資料進(jìn)行預(yù)處理、文本表示、抽取特征等操作。完成上述步驟后,在研究分析中使用文檔特征,從而開(kāi)展深入分析[1]。在分析文本大數(shù)據(jù)時(shí),主要采取如下流程:(1)從眾多信息來(lái)源中獲取語(yǔ)料,對(duì)語(yǔ)料文檔進(jìn)行解析,明確文本定位,清洗數(shù)據(jù),獲得文本分詞,標(biāo)注詞性,將其中停用詞清除。(2)構(gòu)建詞云、詞嵌入、詞袋模型與主題模型。(3)分析文本情緒、可讀性、相似性,分析語(yǔ)義關(guān)聯(lián)性。(4)監(jiān)督機(jī)器學(xué)習(xí)、詞典語(yǔ)法處理[2]。

1.1獲取語(yǔ)料

獲取語(yǔ)料的方法主要分為兩種:(1)人工獲取;(2)利用網(wǎng)絡(luò)工具爬取或抓取。其中人工獲取語(yǔ)料投入成本較高,耗時(shí)較長(zhǎng),需要投入大量人力,因此網(wǎng)絡(luò)抓取的可行性相對(duì)較高[3]。網(wǎng)絡(luò)抓取方法可有效應(yīng)對(duì)大量文本量,在一定程度上降低文本大數(shù)據(jù)獲取難度。在網(wǎng)絡(luò)抓取語(yǔ)料時(shí),需要借助編程語(yǔ)言,通過(guò)直接抓取或爬取的方法獲取文本大數(shù)據(jù)。采用此種語(yǔ)料獲取模式具有兩方面顯著優(yōu)勢(shì),不僅獲取文本信息耗時(shí)較短,效率較高,而且可直接使用編程語(yǔ)言整理內(nèi)容和規(guī)范形式,為后續(xù)文本分析工作奠定基礎(chǔ)[4]。

1.2預(yù)處理環(huán)節(jié)

獲取目標(biāo)語(yǔ)料后,前期需要預(yù)處理文本,解析、定位文本,清洗數(shù)據(jù),標(biāo)注分詞與詞性,最后去除停用詞。金融市場(chǎng)通常要求企業(yè)采用PDF格式作為信息披露文檔格式,文本預(yù)處理中首先需要解析富格式文檔,獲取文檔信息。定位文本和清洗數(shù)據(jù)環(huán)節(jié)中,利用計(jì)算機(jī)程序定位文本信息[5]。在該類研究中,MD&A研究熱度較高,使用正則表達(dá)式進(jìn)行財(cái)務(wù)報(bào)告正文MD&A定位首尾信息部分,提取上述信息。此外,文本信息中除核心內(nèi)容結(jié)構(gòu)外,還包括超文本標(biāo)記語(yǔ)文、腳本語(yǔ)等代碼信息、圖片信息、廣告信息等,該類信息在文本分析中屬于噪聲內(nèi)容,需要?jiǎng)h除和清洗相關(guān)信息,從文本中篩選有價(jià)值的核心內(nèi)容[6]。文本分詞處理與文本語(yǔ)言密切相關(guān)。英文文本使用空格劃分單詞,即自然存在分詞形式,也可采取提取詞干、還原詞形等方法劃分單詞。中文文本中不使用空格分詞,根據(jù)中文語(yǔ)言習(xí)慣,詞語(yǔ)為最小語(yǔ)言單位,可獨(dú)立使用?;诖朔N背景,分析文本時(shí)需要專門分詞處理中文文本,例如:使用Python開(kāi)源“jieba”中的中文分詞處理模塊處理文本,股票論壇帖子文本、年度業(yè)績(jī)說(shuō)明會(huì)以及企業(yè)財(cái)務(wù)報(bào)告均可使用該類工具處理,完成分詞。在針對(duì)中文文本進(jìn)行分詞處理時(shí),其中實(shí)施難度較高的部分是識(shí)別新詞、歧義詞與控制切分顆粒度。在處理歧義詞時(shí),需要科學(xué)選擇分詞方法,采用“jieba”針對(duì)文本進(jìn)行分詞處理時(shí),選擇分詞模式是否科學(xué)直接影響分詞精準(zhǔn)度。分詞處理新詞時(shí),需要用戶在相應(yīng)模塊中自行添加新詞,完善自定義詞典,從而使分詞軟件識(shí)別新詞[7]。語(yǔ)義信息被識(shí)別的關(guān)鍵依據(jù)是詞性等語(yǔ)法特征,詞語(yǔ)切分后標(biāo)記詞語(yǔ)詞性操作被稱為詞性標(biāo)注。詞性標(biāo)注操作可幫助計(jì)算機(jī)進(jìn)行詞語(yǔ)種類識(shí)別,避免詞語(yǔ)歧義,對(duì)語(yǔ)法結(jié)構(gòu)進(jìn)行有效識(shí)別,從而促進(jìn)計(jì)算機(jī)順利進(jìn)行語(yǔ)義分析。詞性標(biāo)注時(shí),中英文操作方法不同,詞性劃分英文單詞要求比較嚴(yán)謹(jǐn),利用詞尾變化反映詞性變化。在英文詞匯中,許多固定詞尾可提示詳細(xì)詞性信息。在處理中文詞語(yǔ)中,并無(wú)明確詞性指示,詞性識(shí)別依據(jù)主要為語(yǔ)法、語(yǔ)義等。簡(jiǎn)言之,英文詞性識(shí)別標(biāo)記注重形式,漢語(yǔ)詞性標(biāo)記以語(yǔ)義為主。在處理文本信息時(shí),需要將文本信息中停用詞去除,從而保證文本挖掘信息具有較高精度。所謂停用詞,即自身詞義表達(dá)有限,然而對(duì)于句子語(yǔ)法結(jié)構(gòu)完整性而言非常重要的詞語(yǔ)。停用詞導(dǎo)致文本數(shù)據(jù)具有更繁瑣維度,導(dǎo)致分析文本的成本較高。英文中動(dòng)詞、連詞、冠詞均為常見(jiàn)停用詞。中文處理方法比較復(fù)雜,必須結(jié)合語(yǔ)言習(xí)慣分析停用詞,不僅需要處理特殊符號(hào)、標(biāo)點(diǎn)符號(hào),還需要處理連詞、俚語(yǔ)。除此之外,應(yīng)根據(jù)具體研究?jī)?nèi)容確定停用詞。在進(jìn)行文本情緒研究時(shí),特定標(biāo)點(diǎn)符號(hào)、語(yǔ)氣詞等會(huì)影響文本表達(dá)的情感信息,對(duì)于此類信息需要予以保留,從而保證文本情感程度得到準(zhǔn)確分析。

1.3文檔表示環(huán)節(jié)

文本數(shù)據(jù)為高維度數(shù)據(jù),具有稀疏特點(diǎn),使用計(jì)算機(jī)處理文本數(shù)據(jù)時(shí)難度較高,預(yù)處理實(shí)施后,必須通過(guò)特定方式表示文檔信息,通過(guò)此種處理降低后續(xù)計(jì)算機(jī)分析和人工研究難度。詞云、詞嵌入、詞袋模型、主題模型均為核心表示方法[8]。詞語(yǔ)技術(shù)具有可視化特點(diǎn),是文本大數(shù)據(jù)技術(shù)之一。所謂本文可視化,即使用視覺(jué)符號(hào)顯示復(fù)雜內(nèi)容,展示文本規(guī)律。根據(jù)生物特性,人們習(xí)慣于通過(guò)視覺(jué)獲取文本信息,實(shí)現(xiàn)文本可視化可提高信息提取效率。使用詞云技術(shù)可有效描述文本中詞匯使用頻率,采用醒目形式顯示高頻詞匯。詞袋模型的構(gòu)建基礎(chǔ)是無(wú)嚴(yán)格語(yǔ)序要求的文字詞組存在[9],以此種假設(shè)為前提,文本相當(dāng)于眾多詞語(yǔ)集合,采用向量化方法表達(dá)文本,在此過(guò)程中只計(jì)算各個(gè)詞語(yǔ)出現(xiàn)頻率。在詞袋模型中含有兩種構(gòu)建方法:(1)獨(dú)熱表示法;(2)詞頻-逆文檔頻率法。前者的應(yīng)用優(yōu)勢(shì)是可行性較高,操作難度較低。例如:現(xiàn)有如下兩個(gè)文檔:(1)文檔一:“經(jīng)濟(jì)學(xué)中文本大數(shù)據(jù)使用”;(2)文檔二:“金融學(xué)中文本大數(shù)據(jù)使用”。以文檔一、文檔二為基礎(chǔ)建設(shè)詞表,根據(jù)詞序?qū)嵤┰~袋化處理,確定詞袋向量。對(duì)于出現(xiàn)的詞,以“1”表示,未出現(xiàn)的詞以“0”表示。但是在實(shí)際操作中,不同詞語(yǔ)在文檔中出現(xiàn)頻率存在差異,通常文本中高頻詞數(shù)量較少,許多詞匯使用頻率較低。為體現(xiàn)文檔中不同詞語(yǔ)的作用,對(duì)單詞詞語(yǔ)賦予權(quán)重。TF-IDF是計(jì)算文檔定詞語(yǔ)權(quán)重的有效方法。含有詞語(yǔ)i文檔數(shù)描述為dfi,集合中文檔總量描述為N,逆文檔頻率描述為idfi,第j個(gè)文件中詞語(yǔ)i頻率描述為tfi,j,第j個(gè)文檔內(nèi)詞語(yǔ)數(shù)量描述為aj,第i個(gè)文檔內(nèi)詞語(yǔ)i權(quán)重描述為tf-idfi,j,則公式應(yīng)表示為[10]其中,的前提條件是不低于1,0定義為其他情況。較之獨(dú)熱表示法,TF-IDF方法的特點(diǎn)是對(duì)每個(gè)單詞賦予不同權(quán)重。在賦予其權(quán)重的基本方法時(shí)文本中該詞匯出現(xiàn)頻率越高,其重要性越高,與此同時(shí)語(yǔ)料庫(kù)中該詞匯出現(xiàn)頻率越高,則其重要性相應(yīng)降低。詞嵌入處理中,主要是在低緯度連續(xù)向量空間嵌入指定高維空間,該高維空間維數(shù)包括全部詞數(shù)量。在金融學(xué)領(lǐng)域中進(jìn)行文本研究時(shí),詞嵌入技術(shù)通常采用Word2vec技術(shù),該技術(shù)中主要使用CBOW技術(shù)與Skip-Gram神經(jīng)網(wǎng)絡(luò)模型,針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,促使其有效捕獲詞語(yǔ)中包含的上下文信息,對(duì)詞語(yǔ)進(jìn)行向量化映射,得到的向量語(yǔ)義信息更加豐富,信息密度更大,信息維度更低。主題模型中應(yīng)用頻率較高的是LDA模型,應(yīng)用此種模型進(jìn)行文本分析屬于無(wú)監(jiān)督機(jī)器學(xué)習(xí)法,通過(guò)此種方法才能夠大量集中語(yǔ)料中提取主題信息。在應(yīng)用該方法時(shí),將生成文檔的過(guò)程分為兩步,首先假定各文檔具有對(duì)應(yīng)主題,從這些主題中抽取一個(gè)主題,然后假定文檔具有對(duì)應(yīng)詞匯,對(duì)比之前抽取的主題,從詞語(yǔ)中選取一個(gè)與主題對(duì)應(yīng)的詞語(yǔ)。完成上述迭代后,將其與文檔中各詞語(yǔ)擬合,從而獲得各文檔主題、主題中詞語(yǔ)分布情況。LDA模型主要優(yōu)勢(shì)是,與手動(dòng)編碼相比,該模型性能更完善,可有效分類大規(guī)模文檔。該模型做出的文本主題分類支持復(fù)制,準(zhǔn)確性較高,而采用人工手段分類文本時(shí)較易受到主觀性影響。此外,使用此種模型時(shí),無(wú)需人工分類進(jìn)行關(guān)鍵詞、規(guī)則設(shè)定。LDA模型的缺點(diǎn)是在主題預(yù)設(shè)個(gè)數(shù)時(shí),受到研究者主觀因素影響,選擇主題個(gè)數(shù)的數(shù)量受此影響顯著,因此生成主題過(guò)程與歸類文本主題時(shí)較易受到相關(guān)影響。

1.4抽取文本特征的方法

文本特征是指文本可讀性、相似性、文本情緒以及語(yǔ)義關(guān)聯(lián)性。其中文本可讀性即讀者在閱讀文本時(shí)是否可較容易地理解文本信息。在編輯文本時(shí)應(yīng)保證文本具有較高可讀性,保證投資者通過(guò)閱讀文本可有效理解文本信息,即確保文本對(duì)投資者投資行為產(chǎn)生積極影響。有研究者在文本分析中使用迷霧指數(shù),該類研究認(rèn)為,迷霧指數(shù)與年報(bào)可讀性呈負(fù)相關(guān)。年報(bào)文本字?jǐn)?shù)、電子文檔規(guī)格也是影響年報(bào)可讀性的重要因素。在使用迷霧指數(shù)評(píng)價(jià)文本可讀性時(shí),常見(jiàn)的問(wèn)題是,隨機(jī)排序句子中詞語(yǔ)將導(dǎo)致文本難以理解,然而正常文本和經(jīng)過(guò)隨機(jī)排序處理的文本在分析計(jì)算時(shí),顯示相同迷霧指數(shù)。不僅如此,在進(jìn)行商業(yè)文本測(cè)量時(shí)采用迷霧指數(shù)作為依據(jù)具有顯著缺陷,例如,當(dāng)對(duì)企業(yè)披露信息進(jìn)行可讀性分析時(shí),難以有效劃分年報(bào)可讀性與該企業(yè)實(shí)際復(fù)雜性?;诖朔N背景,在針對(duì)年報(bào)文本可讀性進(jìn)行評(píng)價(jià)時(shí),需要結(jié)合企業(yè)業(yè)務(wù)復(fù)雜性等影響,提出非文本因素[11]。在提取文本情緒時(shí),通常采用有監(jiān)督機(jī)器學(xué)習(xí)法與詞典法進(jìn)行提取操作。詞典法即在文本情緒、語(yǔ)氣語(yǔ)調(diào)研究中使用情緒詞典輔助分析。詞典確定后,該類研究即支持復(fù)制。不僅如此,建設(shè)詞典時(shí)還需要融合大量金融學(xué)專業(yè)知識(shí),從而使詞典與金融文本分析需求一致。使用現(xiàn)有多種類詞典、文獻(xiàn)等分析媒體報(bào)道情緒,針對(duì)財(cái)務(wù)報(bào)告進(jìn)行語(yǔ)氣語(yǔ)調(diào)分析,以及進(jìn)行電話會(huì)議等進(jìn)行語(yǔ)氣語(yǔ)調(diào)分析等。中文大數(shù)據(jù)分析時(shí),通常是以英文詞典、詞庫(kù)等為模板,構(gòu)建中文情緒詞典。使用該類詞典輔助分析股票成交量、收益率,評(píng)估股市崩盤(pán)風(fēng)險(xiǎn)高低。在詞典法應(yīng)用中需要結(jié)合加權(quán)法進(jìn)行文本情緒分析[12]。有監(jiān)督機(jī)器學(xué)習(xí)法包括支持向量機(jī)、樸素貝葉斯等方法。采用此類方法時(shí),重點(diǎn)環(huán)節(jié)在于對(duì)分類效果進(jìn)行檢驗(yàn)和評(píng)價(jià)。交叉驗(yàn)證法是常見(jiàn)檢驗(yàn)方法。有監(jiān)督機(jī)器學(xué)習(xí)法的缺點(diǎn)是必須人工編碼設(shè)置訓(xùn)練集,工作量較大,并且人工編碼較易受到主觀因素影響,分類效果魯棒性較差,并且研究難以復(fù)制。其優(yōu)點(diǎn)是分類精確度較好。

2.文本大數(shù)據(jù)分析

大數(shù)據(jù)分析主要是進(jìn)行財(cái)務(wù)報(bào)告等公司披露文本信息、搜索指數(shù)、社交網(wǎng)絡(luò)文本以及財(cái)經(jīng)媒體報(bào)道等進(jìn)行分析。通過(guò)文本挖掘從海量文本中抽取核心特征,分析其可行性、相似性、語(yǔ)義特征、語(yǔ)氣語(yǔ)調(diào)等,然后分析股票市場(chǎng)行為與文本特征等相關(guān)性。分析披露文本信息時(shí),主要是利用文本信息對(duì)企業(yè)財(cái)務(wù)、經(jīng)營(yíng)、管理層長(zhǎng)效經(jīng)營(yíng)信息等進(jìn)行研究。在進(jìn)行此類研究時(shí),重點(diǎn)是分析文本可讀性、相似性,以及分析語(yǔ)氣語(yǔ)調(diào)。披露文本可讀性較高時(shí),有利于投資者有效獲取公司信息,影響投資行為。迷霧指數(shù)理論認(rèn)為,財(cái)務(wù)報(bào)告具有較高可讀性的企業(yè)通常具有更長(zhǎng)久的利潤(rùn)。此外,有研究者提出,財(cái)務(wù)報(bào)告可讀性直接影響盈余預(yù)測(cè)離散性和可靠性。財(cái)務(wù)報(bào)告可讀性較低時(shí),公司為減輕此種消極影響,可采取自愿披露措施緩解消極影響。管理者通過(guò)控制財(cái)務(wù)報(bào)告可讀性可對(duì)投資者行為做出影響[13]。在針對(duì)企業(yè)發(fā)展情況和股票市場(chǎng)發(fā)展趨勢(shì)進(jìn)行分析時(shí),披露文本語(yǔ)氣語(yǔ)調(diào)具有重要參考價(jià)值。相關(guān)研究認(rèn)為,MD&A語(yǔ)氣內(nèi)含有增量信息,該類信息為企業(yè)長(zhǎng)效經(jīng)營(yíng)能力進(jìn)行預(yù)測(cè),同時(shí)可根據(jù)該類信息分析企業(yè)破產(chǎn)風(fēng)險(xiǎn)。管理者情緒狀態(tài)可表現(xiàn)在電話會(huì)議語(yǔ)氣中,此種語(yǔ)氣分散情況與經(jīng)營(yíng)決策具有相關(guān)性,同時(shí)語(yǔ)氣對(duì)投資者感知、分析師評(píng)價(jià)產(chǎn)生影響。分析財(cái)經(jīng)媒體報(bào)道時(shí),主要關(guān)注媒體情緒,分析媒體報(bào)道著眼點(diǎn),針對(duì)經(jīng)濟(jì)政策進(jìn)行分析,了解其不確定性,此外還需要研究媒體報(bào)道偏向信息、假新聞等。進(jìn)行社交網(wǎng)絡(luò)文本研究時(shí),主要是分析策略性信息披露情況與文本情緒。搜索指數(shù)研究方面,主要通過(guò)搜索指數(shù)了解投資者關(guān)注度。

亚洲欧美日韩成人_亚洲精品国产精品国产自_91精品国产综合久久国产大片 _女同久久另类99精品国产
亚洲福利视频一区二区| 在线观看国产精品网站| 久久只精品国产| 性欧美18~19sex高清播放| 99在线热播精品免费| 亚洲高清不卡在线观看| 欧美一区二视频| 亚洲欧美国产高清va在线播| 99综合在线| 亚洲伦伦在线| 亚洲精品欧美日韩| 亚洲日本中文字幕| 亚洲高清久久| 亚洲国产精品一区二区www| 韩日成人在线| 狠狠干狠狠久久| 国内成+人亚洲+欧美+综合在线| 国产精品永久免费视频| 国产精品一区二区久久国产| 国产精品免费看久久久香蕉| 国产精品美女久久久久av超清 | 日韩天堂av| 亚洲精品影院在线观看| 亚洲伦理精品| 宅男精品视频| 香蕉免费一区二区三区在线观看| 欧美尤物一区| 亚洲高清不卡| 99精品欧美一区二区三区综合在线| 一区二区高清视频| 亚洲一区二区在线免费观看| 亚洲欧美日韩精品| 久久中文字幕导航| 国产欧美精品一区二区色综合 | 欧美激情亚洲综合一区| 欧美日韩成人一区二区| 欧美婷婷六月丁香综合色| 国产精品久久久久高潮| 国产日韩欧美精品综合| 激情伊人五月天久久综合| 亚洲国产综合在线| 亚洲深夜av| 欧美尤物一区| 99精品久久免费看蜜臀剧情介绍| 亚洲欧美激情精品一区二区| 久久国产精品免费一区| 免费观看亚洲视频大全| 欧美三区视频| 国产一区二区三区网站| 亚洲韩国精品一区| 一级成人国产| 久久高清福利视频| 一区二区三区视频在线观看 | 久久精品一区二区三区不卡牛牛| 麻豆成人综合网| 欧美日韩在线播放三区四区| 国产伦精品一区二区三区四区免费| 激情久久五月| 99ri日韩精品视频| 欧美一区免费| 中文一区二区| 欧美激情综合网| 亚洲黄色av| 亚洲一区二区三区乱码aⅴ| 久久riav二区三区| 欧美激情精品久久久久久免费印度 | 亚洲婷婷免费| 久久激情五月婷婷| 亚洲一区在线免费| 久久久久久网址| 欧美三级视频在线观看| 狠狠综合久久av一区二区老牛| 一本色道久久88综合亚洲精品ⅰ| 欧美一站二站| 一本久道久久久| 久久综合五月| 国产精品免费一区二区三区观看 | 久久国产精品99精品国产| 99伊人成综合| 久久香蕉国产线看观看av| 国产精品video| 亚洲激情在线| 欧美在线关看| 午夜视频精品| 欧美日韩三级一区二区| 伊人蜜桃色噜噜激情综合| 亚洲素人一区二区| a4yy欧美一区二区三区| 美女任你摸久久| 国产乱码精品一区二区三区忘忧草| 91久久久亚洲精品| 久久成人羞羞网站| 欧美亚洲日本网站| 欧美日韩一本到| 亚洲欧洲一区二区在线播放| 久久精品1区| 欧美一区二区三区四区夜夜大片| 欧美日韩一区二区三区在线视频 | 亚洲欧美日韩一区二区三区在线| 99re热这里只有精品视频 | 欧美黑人在线观看| 黑人巨大精品欧美黑白配亚洲| 亚洲自拍16p| 亚洲一区二三| 欧美日韩国产综合一区二区| 亚洲国产日韩欧美在线动漫| 久久精品国产2020观看福利| 久久er99精品| 国产精品美女久久久浪潮软件| 日韩图片一区| 亚洲免费精彩视频| 欧美成人激情在线| 亚洲成色777777女色窝| 亚洲二区免费| 久久资源在线| 在线看片日韩| 91久久精品国产91性色tv| 99国内精品久久久久久久软件| 亚洲免费视频中文字幕| 亚洲欧美不卡| 国产精品久久久免费| 在线视频精品| 亚洲欧美日韩精品久久亚洲区| 国产精品草草| 亚洲一区二区三区精品在线观看| 亚洲伊人网站| 国产精品高潮呻吟久久| 宅男66日本亚洲欧美视频| 亚洲性xxxx| 国产精品久久久久久妇女6080| 中文av一区二区| 亚洲综合视频在线| 国产精品久久久久久av福利软件 | 国产精品国产三级国产专播精品人 | 午夜亚洲影视| 国产农村妇女精品| 欧美在线高清视频| 久久伊人亚洲| 亚洲国产精品传媒在线观看 | 久久全球大尺度高清视频| 一区二区亚洲精品国产| 亚洲精品一区二区三区99| 欧美精品国产精品| 99精品视频免费观看视频| 亚洲伊人伊色伊影伊综合网| 先锋影音网一区二区| 欧美日韩福利在线观看| 亚洲精品久久久久久一区二区| 亚洲天堂男人| 国产日韩一区在线| 亚洲国产日韩综合一区| 欧美精品在线观看一区二区| 在线亚洲自拍| 久久精品视频一| 亚洲国产精品va在看黑人| 亚洲天堂视频在线观看| 国产婷婷97碰碰久久人人蜜臀| 亚洲国产精品久久久久| 欧美剧在线观看| 亚洲在线国产日韩欧美| 久久夜色精品国产噜噜av| 亚洲人成在线观看网站高清| 亚洲欧美成人在线| 韩国一区电影| 亚洲一区二区三区中文字幕在线| 国产日韩av一区二区| 亚洲精品国精品久久99热一| 国产精品福利在线观看| 久久精品国产精品亚洲| 欧美视频一区二区三区…| 欧美中文在线视频| 欧美精品在线网站| 亚洲欧美日韩精品久久| 欧美顶级艳妇交换群宴| 亚洲男女自偷自拍| 免费久久99精品国产自| 亚洲午夜国产成人av电影男同| 久久久噜噜噜久久久| 亚洲伦理网站| 久久人体大胆视频| 亚洲视频 欧洲视频| 久久一综合视频| 中文一区二区| 欧美jjzz| 西西裸体人体做爰大胆久久久 | 欧美日韩aaaaa| 欧美亚洲网站| 国产精品久久久久高潮| 欧美午夜a级限制福利片| 久久精品国产第一区二区三区最新章节 | 亚洲精品网址在线观看| 久久精品一区中文字幕| 夜夜嗨网站十八久久| 免费观看成人| 亚欧成人精品| 欧美性理论片在线观看片免费| 亚洲日本欧美在线| 国产一区91| 亚洲欧美中文字幕| 亚洲精品国产精品国自产观看浪潮|