緒論:寫作既是個人情感的抒發,也是對學術真理的探索,歡迎閱讀由發表云整理的11篇聚類分析論文范文,希望它們能為您的寫作提供參考和啟發。
鑒于遵循數據的客觀性和代表性,以及易得性,本文采取以下指標:每千人工業增加值x1;每千人電信業務量x2;每千人移動通信交換機容量x3;移動電話普及率x4;電話普及率x5;廣播綜合人口覆蓋率x6;電視綜合人口覆蓋率x7;有線電視普及率x8;每十戶寬帶上網用占有戶數x9;R&D經費支出占GDP比重x10;每十人從事科技活動人員總數占有的人數x11;每十人在校大學生人數占有的人數x12;每千人專利授權數占有數x13。其中缺省值用平均值代替或者臨近年數內值代替。由于篇幅有限,指標數據省略。
2、因子分析
因子分析法是能夠實現數據簡化目的的有效方法之一。其基本思想是根據相關性大小把變量分組,使得同組內的變量之間相關性較高,使不同組的變量相關性較低,每組變量代表一個基本結構,這個基本結構稱為公共因子。運用因子分析法,借助EXCEL多元統分析,對已得的指標數據進行分析處理,在處理過程中選取方差貢獻比率為0.80。
按照方差貢獻比率大于80%,應提取前四個因子,它們所解釋的方差占總方差的84.58%,這四個因子就可以解釋原始數據的大部分信息了。
分析結果中可以得到每個城市的四個因子得分情況F1,F2,F3和F4。最后,對28個城市的信息化水平進行綜合評價并排序。以旋轉后四個因子的方差貢獻率為權數計算綜合得分,計算公式為:F=0.5923F1+0.09957F2+0.0804F3+0.0736F4,最終可以得到所有城市的綜合得分排名。
由于變量指標取值的同向性,得分越高代表信息化水平越高。排名依次為:北京,天津、廣東、浙江、江蘇、湖南、福建等等。
3、聚類分析
聚類分析是統計學中研究“物以類聚”問題的多元統計分析方法,在統計分析的應用領域已經得到了極為廣泛的應用。其思路為:首先每個數據對象自成一類,并且計算各個類之間的“距離”或者相似性。然后每次將最相似的兩類合并,合并后重新計算新類與其他各個類之間的距離或相似度。這一“凝聚”的過程一直繼續直到所有對象都歸為一類為止。利用各城市的因子得分,還可對28個城市進行分類,得分值相近的城市被認為具有較相似的屬性。
4、結果分析
由所得到的聚類圖可以看出,全國信息化水平基本上可以分為五類,北京,山西各成一類,從上面的綜合水平排名可以看出,北京信息化水平處于全國領先地位,這首先歸功于北京的地理位置和政治人文環境,其次結合因子得分矩陣,北京在因子1上的得分最高,而根據因子載荷矩陣可以看出,因子1在13個變量指標上的載荷系數都比較大,證明北京在城市信息化的各個方面都比較出色。山西的信息化綜合水平排名第10,屬于中等偏上的水平,在因子4上的得分較高,因子4在變量指標x1,x2上的載荷量較大,這正好符合山西是個煤礦大省的特征,通信電信比較發達繁榮。天津、廣東、江蘇、福建、浙江歸為一類,這幾個城市都是發達城市,信息化水平偏高,在每個指標上得分都比較平均。而河北、黑龍江、河南、江西、遼寧、吉林、湖北、湖南、安徽、山東、四川、海南、重慶可以歸為一類,這幾個城市由于地理環境、產業結構、人口眾多等因素使得信息化水平中等偏下。最后一類,信息化水平偏下的一類包括:內蒙古、甘肅、青海、寧夏、廣西、云南、和陜西,信息化水平底下源于經濟發展水平不高、對于信息化認識薄弱以及對信息產業的投入不夠。
5、政策建議
雖然我國信息化應用工作已取得了較大的成績,但在發展的過程中還存在著一些問題和不足使信息化帶動經濟發展的優勢難以更好地發揮與國外發達國家相比還有很大差距,就是同亞洲一些發展中國家(或地區)比較也存在不小的距離。當前,經濟全球化、我國加入世界貿易組織和世界信息產業的新發展,都對我國信息化應用發展提出了新的要求,因此,我們應認真分析中國信息化水平現狀,分析與國外信息化發展的差距,有效地針對問題和不足進行改進,正確地規劃未來發展方向和應采取的對策。
對策和建議主要有:(1)加快有關信息化法律、法規的制定,確保應用中的可靠性和安全性(2)降低成本,普及大眾。(3)加強信息化知識普及與培訓力度。(4)加大國家對信息化投資力度縮小地區間差距。(5)加強信息資源建設,提高信息化服務質量與水平。(6)建立信息化數據采集系統和評價監測體系。
另外,由上文的分析,信息化水平測度的數據很不全面,在每個地區城市的報告中尚未包括有些信息化水平測度指標,比如說信息產業增加值占地區生產值的比重。完整的數據不僅可以幫助很好的測度信息化水平,同時可以鞭策及時發現問題,提出相應的解決辦法,這對于提高信息化水平是必要的途徑。
參考文獻:
[1]張海永.基于因子分析和聚類分析的江蘇省13個城市社會發展水平研究.西南民族大學學報·自然科學版,2007,(2).
[2]陳小磊,鄭建明,萬里鵬.信息化水平測度指標體系理論研究述評.圖書情報知識,2006,(9).
一 引言
聚類分析是數理統計中研究“物以類聚”的一種方法。聚類分析是一種無監督分類工具,其目的是在沒有先驗知識的前提下基于某個相似性度量找出屬于同一屬性集的數據,繼而將數據對象集合分成不同的類,因此它是挖掘數據未知的、具有潛在應用價值的信息的一種很好的方法。介于其在海量數據處理中顯現出的優勢,使得它在數據挖掘、模式識別、圖像處理、經濟學(尤其是市場研究方面)等領域得到了廣泛的應用。免費論文。然而,正是由于聚類分析的無監督特性,導致了數據最佳的聚類數很難確定,這就是聚類分析面臨的最主要的問題。免費論文。
二 FCM方法
經典分類學是從單個因素或有限幾個因素出發,憑經驗和專業知識對事物分類,這種分類具有非此即彼的特性,分出的類別界限很清晰。免費論文。隨著認識的深入,發現這種分類不適用于具有模糊性的分類問題,如圖像中的區域之間的邊界就往往是模糊不清的。1965年,Zadeh提出了著名的模糊集理論,創建了一個新的學科—模糊數學。
用普通數學方法進行分類的聚類法稱為普通聚類分析,而把應用模糊數學方法進行分析的聚類分析稱為模糊聚類分析。。。在實際中應用最為廣泛的是模糊C一均值算法(FCM:Fuzzy C-Means)。。FCM算法首先是由為Ruspini提出的,但真正有效的方法是由Dunn給出的。1974年Dunn將硬C--均值聚類算法推廣到模糊情形,同年Bezdek將Dunn的方法一般化,給出了基于目標函數模糊聚類的一般描述:
其中,表示隸屬第類的隸屬度函數,表示與的距離,為平滑指數.聚類準則為取為極小值.
1980年Bezdek證明了模糊C-均值聚類算法的收斂性并討論了模糊C一均值聚類算法與硬C一均值聚類算法的關系。從此,基于目標函數的模糊聚類方法蓬勃發展起來。
三 模糊聚類有效性函數
不少學者為估計數據集存在的最佳聚類數進行了大量地研究,基于模糊聚類分析的最佳聚類數的研究,也取得了豐富的成果。1974年,Dunn給出了如下的有效性判別函數:
其中,
1974年,Bezdek給出了如下有效性判別函數:
1991年,X.L.Xie和G.Beni定義了如下有效性判別函數,在實際應用中取得很好的效果。
四 一種新的聚類有效性函數
2000年, Tibshirani R等提出了Gap統計量,并用它來估計最佳聚類數。方法通過引入一個參考分布,用gap統計量刻畫樣本觀察值與它們在這個參考分布下的期望值之間的差異,最后通過這個統計量得到最佳聚類數的估計。
其中,表示在某參考分布下的期望,一維情況下通常取均勻分布為參考分布,最佳聚類數即出現在取最大值時。
實驗證明應用Gap統計量確定最佳分類數取得比較好的效果,但同時我們注意到Gap統計量方法只考慮了數據的幾何特征,沒有考慮到數據分類的模糊性,所以我們對Gap統計量的方法加以改進,引入數據的模糊特性,從而使分類數的確定更加合理準確。具體方法如下:
令,其中是隸屬第i類的隸屬度函數,是第i類的質心(均值)。從而定義函數:
表示在某參考分布下的期望,一維情況下通常取均勻分布為參考分布。這樣最佳聚類數出現在取最大值時。
參考文獻:
1. 黃陳蓉 張正軍 吳慧中. 圖像分割的Gap統計模型[J]. 計算機科學.2005.
2. 張正軍 李建軍 劉力維. 標準化水平的Gap統計量的零件圖像分割數估計[J]. 中國制造業信息化.2007
3. 李娜 劉力維 張正軍. 基于GS方法的圖像最佳分割的研究. 南京理工大學碩士學位論文.2006
[分類號]G304
1 引 言
學術期刊是國家科技發展水平的重要窗口,是知識創新、科技成果轉化為生產力的重要橋梁,在推動社會科技進步方面發揮著不可替代的作用。期刊評價是文獻計量學研究的重要組成部分,它通過對學術期刊的發展規律和增長趨勢進行量化分析,揭示學科文獻數量在期刊中的分布規律,為優化學術期刊的使用提供重要參考,同時可以提高學術期刊的內在質量,促進學術期刊的健康成長和發展。對期刊評價指標進行分類是期刊評價的基礎和前提,目前期刊評價方法有幾十種,有些評價方法不需要對期刊評價指標進行分類,如主成分分析、灰色關聯、TOPSIS等方法,但是有些評價方法必須建立在期刊評價指標分類的基礎上,包括層次分析法、專家打分法、突變理論等。層次分析法是根據子指標對父指標的重要性程度進行兩兩判斷,指標分類尤為重要。專家打分賦權類評價方法是在指標眾多的情況下進行的,更需要分類。
Weiping Yue、Concepcion s.Wilson(2004)利用結構方程的原理建立了一個期刊影響力的分析框架,并對期刊評價指標進行了系統的分類。蘇新寧(2008)在構建人文社會科學期刊評價指標體系時,將一級指標分為期刊學術含量(篇均引文、基金論文比、機構標注、地區分布數)、被引數量(總被引頻次、學科論文引用數量、他引率)、被引速率(總被引速率、學科引用速率、它刊引用速率)、影響因子(總影響因子、學科影響因子、他引影響因子)、被引廣度等。蓋紅波(2006)將期刊評價指標分為定量評價指標(被引量、被索量、載文量、被摘量、影響因子)、定性評價指標(雙高、雙效、雙獎、雙百)、質量考核指標(政治、學術、編輯出版、效益)、同行評議指標。趙惠祥、張弘等(2008)將科技期刊評價一級指標分為影響力指標(總被引頻次、影響因子、5年影響因子、相對影響因子、即年指標、他引率、引用刊數、擴散因子、學科影響指標、學科擴散指標、被引半衰期、h指數)、文獻指標(載文量、參考文獻量、平均引文量、平均作者數、地區分布數、機構分布數、基金論文比、海外論文比等)、載體指標(文獻書目信息完整率、編排規范化、差錯率、裝幀質量、印刷質量、網絡通暢率、平均發表周期、平均出版時限等)、管理指標(期刊社體制、編委會狀況、管理規章完備性、版權制度、發行體制、信息平臺、人員狀況、營業總額、資產總額、利潤總額)。邱均平、張榮等(2004)將期刊評價指標分為技術性指標(影響因子、總被引頻次、即年指標)、效益指標(直接效益、間接效益、社會效益)、標準規范化指標(編校質量、裝印質量、現代化建設)。黃河勝(2000)將期刊內涵指標分為引文參數(影響因子、總被引頻次、自引率、被引半衰期、外文引文率、SCI文獻引用率)、稿件特征參數(基金論文比、學位稿)、稿流特征參數(平均時滯量、平均載文量)。潘云濤(2007)”將期刊一級指標分為學術質量指標、國際競爭力力指標、可持續發展潛力指標。龐景安、張玉華等(2000)將科技期刊評價指標分為經營管理水平指標、學術水平、編輯水平三大類。
由于評價目的不同,期刊評價的指標選取不同,當然分類也不一樣。對于大多數評價指標而言,不同學者的分類基本相同,但由于學術期刊評價指標的特點,對于少數指標,不同學者分類截然不同,如基金論文比指標有的作為學術質量指標,而有的作為文獻特征指標;即年指標有的被作為時效性指標,有的被作為影響力指標。這些難以分類的指標主要有基金論文比、地區分布數、海外論文比、即年指標等。此外,目前學者主要采用主觀分類法進行分類,沒有采用客觀分類法。
本文以中國科學技術信息研究所的醫學期刊評價為例,采用聚類分析與因子分析等客觀分類法進行分類和比較,試圖確定學術期刊評價指標的分類方法,從而為進一步的期刊評價打下基礎。
2 方法
2.1 聚類分析(Cluster Analysis)
聚類分析是多元統計分析的一種,它把一個沒有類別標記的樣本集按某種標準分成若干個子集(類),使相似的樣本盡可能歸為一類,而不相似的樣本盡量劃分到不同的類中。聚類分析被廣泛地應用于模式識別、數據挖掘和知識發現的許多領域。聚類的目的是要使各類之間的距離盡可能地遠,而類中點的距離盡可能地近。并且分類結果還要有令人信服的解釋。在聚類分析中,人們一般事先并不知道應該分成幾類及哪幾類,全根據數據確定。
對一組數據,既可以對變量(指標)進行分類,也可以對觀測值(事件,樣品)來分類,對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類,它們在數學上是無區別的。在學術期刊評價中,可以應用R型聚類分析來進行學術期刊評價指標的分類。
2.2 因子分析(Factor Analysis)
因子分析是從多個變量指標中選擇出少數幾個綜合變量指標的一種降維的多元統計方法。該方法的基本思想是通過變量的相關系數矩陣或協方差矩陣內部結構的研究,找出能控制所有變量的少數幾個隨機變量去描述多個變量之間的相關關系。然后根據相關性大小把變量分組,使得同組內的變量之間相關性較高,不同組的變量之間相關性較低。每組變量代表一個基本結構,這個基本結構稱為公共因子。對于所研究的問題就可試圖用最少個數的不可測的所謂公共因子的線性函數與特殊因子之和來描述原來觀測的每一分量。
建立因子分析模型的目的是找出主因子,解釋每個主因子的實際意義,以便對實際問題進行分析。由因子模型矩陣得到的初始因子載荷矩陣,如果因子負荷的大小相差不大,對因子的解釋可能有困難,因此,為得出較明確的分析結果,往往要對因子載荷矩陣進行正交旋轉或斜交旋轉。通過旋轉坐標軸,使每個因子負荷在新的坐標系中能按列向0或1兩極分化,同時也包含按行向兩極分化。如果不對因子載荷矩陣進行旋轉,就是主成分分析,因此,主成分分析實際上是因子分析的一種特殊情況。主成分分析只要求所提取出的主成分能包含主要信息即可,不需對其含義作準確解釋;因子分析要求所提取出的因子有實際含義,因此采用因子分析進行變量的分類較好。
因子分析是根據現有的指標尋找公共因子,因此,可以借用因子分析進行指標的分類,與主觀分類不同的是,由于因子分析是完全根據數據進行的客觀分析,
因此不能首先確定一級指標的名稱,而應該根據因子分析的結果對公共因子進行命名。
3 數據
本文數據來自于中國科學技術信息研究所CSTPC數據庫,以醫學類期刊為例進行分析。中國科學技術信息研究所從1987年開始對中國科技人員在國內外數量和被引情況進行統計分析,并利用統計數據建立了中國科技論文與引文數據庫,同時出版《中國學術期刊引證報告》。本文數據是2006年的醫學學術期刊數據,共518種醫學期刊,如表1所示:
由于要對期刊進行評價,所以必須對數據進行標準化處理,每項指標最大值設為100,然后按比例進行調整。此外,被引半衰期和引用半衰期是兩個反向指標,必須進行適當處理,方法是用100減去其標準化后的結果后再做標準化,這種處理方式是線性處理方式,比反向指標取倒數的非線性處理方式要科學一些。
4 指標分類結果
4.1 聚類分析
采用層次(hierarchical method)R聚類,第一步把最近的兩個指標合并成一類;度量剩余的指標和小類間的親疏程度,并將當前最接近的指標或小類再聚成一類;再度量剩余的指標和小類間的親疏程度,并將當前最接近的指標或小類再聚成一類,如此循環,每次都少一類,直到最后只有一大類為止。越是后來合并的類,距離就越遠。采用SPSS 15.0進行數據處理,選擇組內聯系最大法(within-groups linkage),結果見圖1。總被引頻次(x1)與學科擴散因子(X5)被劃為一類,都是期刊影響力的指標;影響因子(x7)與即年指標(X8)被劃為一類,還是期刊影響力的指標。在此基礎上將以上4個指標劃為一類,是可以解釋的。然后以此為基礎,依次增加平均引文數(X11)、海外論文比(X14)、基金論文比(X9)、學科影響指標(X4),關聯性相對較弱,如平均引文數與期刊的影響力關系并不是很大,海外論文比和基金論文比與期刊影響力有一定關系,但基于聚類分析的角度,似乎又比較遠。
平均作者數(10)和引用半衰期(12)被分為一類,幾乎無法從理論上找到這種關系,在此基礎上又和擴散因子()(3)聚類,更是無法解釋。
被引半衰期(x6)和地區分布數(X13)被分為一類,從理論上也無法解釋,在此基礎上和他引率(x2)聚類,也無法解釋。
由于期刊評價指標的特殊性,如果采用聚類分析對指標進行分類,結果可能是不能令人信服的,本文是基于大量數據分析得出的結論,應該是比較可靠的。
4.2 因子分析分類
同樣采用SPSS 15.0進行因子分析,首先進行KMO與Bartlett檢驗。KMO是對樣本充分度進行檢驗的指標,一般要大于0.5。本文采用SPSS進行數據處理,KMO值為0.680,也就是說,符合因子分析的條件;Bartlett值為3319.828,P
第一因子是總被引頻次(x1)、學科影響指標(x4)、學科擴散因子(x5)、影響因子(x7)、地區分布數(X13),前4個指標都是與被引相關的指標,可以用影響力加以概括,地區分布數也是影響力的一種體現,影響力越大,論文地區分布越廣。
第二因子包括基金論文比(X9)、平均作者數(XIO)、平均引文數(X11)、海外論文比(X14)、即年指標(x8)、前4個指標都是期刊特征指標,即年指標比較特殊,在第一因子中的系數為0.34,說明它也是影響力指標;在第四因子中的系數為0.424,第四因子包括引用半衰期和被引半衰期,也與引用相關,但第二因子系數最大,為0.531,所以認為其是期刊特征指標。
第三因子包括他引率(x2)和擴散因子(x3),也與被引相關,是影響力的體現,因此可以將第三因子和第一因子合并。
第四因子包括被引半衰期(x6)和引用半衰期(X12),它其實主要反映的是期刊的時效性情況,因為引用半衰期較短的論文,一般比較新,其參考文獻也相對較新
0前言
現代科學技術的迅猛發展,特別是在互聯網的應用和開發上更加的迅速,企業必須通過網絡對自己的產品加強宣傳以增強自己的競爭力。客戶是一個非常重要的、有價值的重要資源,現在如何更好地從數據庫中挖掘出客戶中有價值的信息,更好的培植和經營與有價值客戶的關系,拋棄那些無利可圖沒有發展前景而且營銷費用高的客戶,并且可以針對不同價值的客戶給與不同的政策同時制定出個性化的營銷策略,這些才能夠保證企業的生存發展。對于這一切數據挖掘無疑是行之有效的好方法之一。本文以一個網絡營銷公司為例,提出了一套可操作性的對客戶價值評價方法,然后使用數據挖掘技術中比較常見和常用的聚類分析算法對客戶信息進行聚類從而達到非常重要的信息并為企業在網絡營銷中提供決策依據。
1聚類分析
聚類(clustering)是對于數據挖掘技術是非常重要的一部分,現在也是數據挖掘技術中關鍵的一種。聚類的意義就是針對物理或邏輯上的數據對象的進行自動分類,最后將數據對象分為多個類或簇的過程。對于聚類結果要使得數據對象在同一個分類中具有最大的相似度,而在不同的類中具有最小相似度。聚類的現實意義就是在于可以將數據按照一定得關系進行自動的分類,事先不知道所有的數據對象共有多少類,通過算法的處理最后得到一個分類結果進行應用。譬如在市場研究領域中,特別是針對網絡營銷的企業或網站,從大量的網絡數據進行分析聚類,可以講客戶分成不同的類別,針對這些類別不同的購買力和興趣愛好來進行個性化的營銷手段,提高企業的經濟效益。目前研究人員大多針對于聚類分析算法的改進和完善進行研究,進而提高聚類分析的工作效率。著名的算法有:CLARANS,BRICH,DBSCAN,CURE,STING,CLIGUE和WaveCluster等。
2聚類分析應用于企業客戶資源管理
現針對某電子商務公司進行分析,該電子商務公司的客戶分布在全國各地以及國外一些地區,現僅列出具有代表性的10個大客戶:吉林,黑龍江,山東,江蘇,浙江,安徽,湖南,緬甸,印度,南非等。在數據挖掘的目的就是從客戶中找到一些共同點,在對這些客戶數據進行處理前要使用聚類分析的方法進行研究看看這10個客戶能否有一些共同之處以便企業針對不同類型的客戶給與不同的對策,首先對該公司采用專家打分的方法,而且還有通過網上問卷調查和訪談的方式,收集各地銷售專員的意見等方式,然后對數據加以綜合,最后聚類分析法確定各項指標的權重。
那么在具體實施聚類分析法的時候可分為5個步驟進行:
第1步:首先對各項指數構建層次結構,其中被評定的10個大客戶作為方案層,客戶價值放在目標層中進行處理,各項指標是準則層,按照這樣的分層結構來構造客戶關系評價系統中個指數的結構圖,見圖2-1所示;
表2-1指標權重值表
指標
V
V
V
V
V
V
V
V
V
權重
0.0378
0.0401
0.0135
0.0161
0.0251
0.0060
0.0038
0.0091
0.0192
指標
V
V
V
V
V
V
V
V
V
權重
0.0381
0.1498
0.1721
0.0021
0.0201
0.0085
0.0053
0.0231
0.0701
指標
E
E
E
E
E
E
E
E
權重
0.0212
0.0312
0.0754
0.1841
0.0145
1.問題及背景
世界農業的發展歷史已經證明:農業機械化是建設現代農業的必然過程,是農業現代化不可逾越的階段。農業的機械化程度是衡量一個地區農業發展水平的一個重要指標,而不同地區的機械化水平又是不平衡的,以往對農業機械化水平的研究只是停留在對各地農用機械的絕對擁有量的描述上的,《2005年江蘇省農業機械化管理統計分析江蘇農機化論文》【1】只給出了絕對的統計數據并簡單的編制了一些指數,各地區的差異從中表現的并不很明顯。本文擬采用因子分析和聚類分析兩種方法對吉林省9個地市2005年和2009的農業機械化水平進行排名分類研究。
表1 吉林省農業機械總量及增長率
年份
農用機械總動力(萬千瓦)
大中型農用拖拉機(臺)
農用小型及手扶拖拉機(臺)
大中型機引農具(部)
農用排灌動力機械(臺)
糧食加工機械(臺)
2005
1471.30
90750
538024
171632
416968
101088
2009
2001
245162
589961
480785
469501
113467
增長率(%)
36.00
170.15
9.65
Based on clustering analysis of air quality analysis
Wang Shuai
(College of mechanical Engineering, South East University, Nanjing, 211189)
Abstract: this paper make use of cluster analysis method to study the district shenzhen city air quality problem, the main pollutant SO2, NO2 and PM10 readings - which were taken, CO and O3 undertake an analysis, get the relationship between the content of each pollutant, and the correlation degree, find the main area is polluted, combined with its geographical position to judge the main pollution sources, to the same kind of area with the same method for centralized management.
Keywords: clustering analysis; air quality; centralized management; pollution sources;
中圖分類號:Q938.1+4文獻標識碼: A 文章編號:
由于空氣的擴散作用,導致對空氣環境的治理有一定的盲目性,不能做到對癥下藥,導致效果不佳。將空氣檢測數據進行聚類分析找出污染問題相近的區域進行其中治理,使方案更加有針對性。
1 數據來源
本文所有的數據都收集自深圳市環境空氣質量時報.空氣質量時報對深圳各區的空氣主要污染物的濃度進行檢測,進行評級。
2 聚類分析
聚類分析方法聚類分析方法聚類分析方法聚類分析方法聚類分析關注于根據一些不同種類的度量構造一些相似的對象組成的群體。關鍵的思想去確定對分析目標有利的對象分類方法。在聚類分析前,首先把數據標準化為Z-分數,采用系統聚類(Hierachical Cluster) 方法,用音差平方和法(Ward法)計算歐幾里得(Eudlidean)距離。聚類分析依據的基本原則是:直接比較樣本中各事物之間的性質,,將性質相近的歸為一類,而將性質差別比較大的分在不同類。也就是說,同類事物之間的性質差異小,類與類之間的事物性質相差較大。其中歐式距離在聚類分析中用得最廣,它的表達式如下:其中Xik表示第i個樣品的第k個指標的觀測值,Xjk表示第j個樣品的第k個指標的觀測值,dij為第i個樣品與第j個樣品之間的歐氏距離。若dij越小,那么第i與j兩個樣品之間的性質就越接近。性質接近的樣品就可以劃為一類。 當確定了樣品之間的距離之后,就要對樣品進行分類。分類的方法很多,本節只介紹系統聚類法,它是聚類分析中應用最廣泛的一種方法。首先將n個樣品每個自成一類,然后每次將具有最小距離的兩類合并成一類,合并后重新計算類與類之間的距離,這個過程一直持續到所有樣品歸為一類為止。分類結果可以畫成一張直觀的聚類譜系圖。
3. 問題分析
3.1分析方法
本調查所采用的是聚類分析法,通過SPSS軟件進行統計分析。對問卷進行統計處理得到原始數據表(見表1)。利用SPSS軟件得到聚類成員(見表2)和聚類中心(見表3)。同時進行R型聚類即對變量進行分類(見表4)。
表1 原始數據
表2 聚類成員
表3 聚類中心
表4 聚類表
圖1樹狀圖
3.2結果分析
由聚類分析的計算結果可以看出,原變量之間的差異不大 ,根據表2所示可知,污染區域可以分為兩類,第一類包含16個區域,第二類有兩個區域即鹽山和葵涌,由聚類中心(表3)可以看出,第一類是以SO2、NO2、PM10為主要污染物的區域,而第二類則以O3為主要污染物。從表4可以看出各類中各區域之間的相近程度。從圖1中可以更為直觀的看出福永、光明、橫崗、觀瀾和沙井,相近程度更大,而寶安、龍華和華僑程度相近。南油、荔園和荔香相近。圖中線條長度表示相近程度。
4 結論
聚類分析法表明,可以將全市分為兩個大的空氣質量區,一區中的十六個區域,主要治理SO2、NO2、PM10為主,而二區以O3的治理為主。由于空氣的擴散作用可知,某一區域的作用會影響到周圍一大片區域的空氣環境,所以可以結合所屬于同一類的區域之間的地理位置關系和該區的主要污染物,對區域內的主要污染源進行排查,從而準確找到相關問題的根源,避免了盲目性。
參考文獻(Reference)
[1]汪應洛.系統工程[M].北京:機械工業出版社.2009.54-60.
[2]方開泰.實用多元統計分析[M].上海:華東師范大出版社.1989.291-302.
[3]王學仁,王松桂.實用多元統計分析[M].上海:上海科技出版社.1990.270-272.
[4]方開泰.實用多元統計分析[M].上海:華東師范大學出版社.1989.291-302.
一、引言
近年來,我國物流業發展迅速,物流園區作為物流發展中的一個重要節點,作用日益突出,各個地方紛紛興起建設物流園區的。據不完全統計,目前全國至少有20多個省市和30多個中心城市政府制定了區域性物流發展規劃和政策,還有數不勝數的城市、鄉鎮甚至街道辦事處都要發展物流園區。各個地區物流園區的盲目建設致使物流園區規劃建設中存在功能定位不清、盲目攀比、變相圈地等現象。
2004年國務院針對各地由于紛紛盲目建設物流園區出現的不少問題決定將物流園區列入整頓范圍。今后的物流園區建設將進入冷靜、科學和多元化發展階段。在全國各地區、 部門和行業分割的管理下,為了防止物流園區在各地布局結構趨同及資源重復配置,有必要對物流園區作更高層次的統籌規劃,以實現區域內物流園區的協調發展。
本文針對各地物流園區建設中存在的功能定位不清,資源重復建設等問題,試圖從宏觀層面通過對物流園區依托地區的條件分析,以及對各有關地區的橫向比較研究,確定物流園區宏觀布局載體的層次結構體系,判斷某地區適宜建設的物流園區層級,對物流園區的空間類型進行合理劃分,進而對物流園區進行合理定位。為此,借助主成分和聚類分析方法,通過使用多個經濟指標,實現物流園區空間類型劃分,以期望對我國的物流園區建設提供一定的指導與借鑒作用。文中選取泛珠三角地區進行實證分析。
二、物流園區空間類型及功能
物流園區空間類型是指物流園區的空間層次類別。物流園區空間層次主要是指物流園區空間布局體系中的層次等級問題。物流園區的層次定位主要取決于其在整個物流服務網絡中的地位和作用。根據物流園區主要空間服務地域層次可以將其劃分為國際性物流園區、區域性物流園區和城市性物流園區。其布局的空間層次關系如表2.1所示。
對物流園區宏觀空間布局層次的劃分主要是對其載體層次的劃分。分析物流園區宏觀布局層次類別,主要是判斷作為其宏觀布局載體的省區和城市能夠建設的最高級別物流園區種類情況。物流園區空間布局載體主要分為如下3個層次類別。
上層為國際樞紐型物流園區載體城市,也可稱為物流中心城市,該類城市具有良好的經濟發展水平和優越的交通區位優勢,建有或具備條件建設國際樞紐型物流園區,其物流服務輻射范圍廣,物流相關作業規模大。
中層為區域集散型物流園區載體城市,該類城市具有較好的經濟發展水平和較好的交通區位優勢,建有或具備條件建設區域集散型物流園區,其物流服務輻射范圍一般在本區域內。在物流園區布局層次體系中,此類城市主要承擔聯結上下兩類層次城市的功能。
基層為物流本地生成城市,該類城市是物流服務的本源需求地和最終消費地,因此每個地級城市一般都需要建設本地配送型物流園區。此外,隨著區域經濟一體化的發展,城市群作為空間經濟體系不斷出現,應當考慮在密集的城市群間規劃布置公共的配送型物流園區。
三、主成分分析與聚類分析在泛珠三角物流園區功能定位中的應用
1.主成分分析及聚類分析基本原理
主成分分析(Principal Component Analysis)是多元統計分析中一種重要的方法,用來考察多個定量(數值)變量間的相關性。在多指標(變量)的研究中,由于變量的個數較多,并且彼此之間存在一定的相關性,因而使得所觀測的數據在一定程度上反映的信息有所重疊,而且當變量較多時,在高維空間中研究樣本的分布規律及特征比較麻煩。它是研究如何通過少數幾個主分量(即原始變量的線性組合)來解釋多變量的一種方差-協方差結構。主成分分析的應用使問題得到簡化,即采用降維的方法找到幾個綜合因子來代表原來眾多的變量,使這幾個綜合因子盡可能反映原來的信息,而且彼此之間不相關。
聚類分析(Cluster Analusis)是統計學所研究的“物以類聚”問題的一種方法,它屬于多變量統計分析的范疇。它是一種建立分類的方法,能夠將一批樣本數據(或變量)按照它們在性質上的親疏程度在沒有先驗知識的情況下自動進行分類。這里,一個類就是一個具有相似性的個體的集合,不同類之間具有明顯的非相似性。在分類過程中,不必事先給出一個分類標準,聚類分析能夠從樣本數據出發,客觀地決定分類標準。
2.主成分分析與聚類分析在泛珠三角物流園區功能定位中的應用
“泛珠三角區域合作與發展論壇”的舉行,標志著包括華南九省區以及港澳兩個特別行政區的泛珠三角合作全面啟動。目前,泛珠三角區域正在協力打造全中國最為龐大的一體化產業帶、交通網以及信息流,在發展物流業的過程中,泛珠三角區域各大城市應根據各自的產業布局,以及優勢,實行對物流產業的合理定位與規劃,進而達到各城市在物流基礎設施的規劃和布局方面要相互協調發展的目標。本文利用主成分及聚類分析法,對泛珠三角各省區的物流業進行綜合分析,對各省區的物流園區空間類型進行科學定位,從而得出各省區適宜建立的物流園區層級。
(1)評價指標的選取。建立分類指標體系的目的是為了對物流園區宏觀布局載體樣本進行分類研究,在進行物流園區空間布局載體分類指標體系的選取時,建立科學合理的指標體系關系到分類結果的正確性。因此,在選擇指標體系時,應充分考慮各種因素的影響,然后選擇出影響較大的因素和條件進行分析。
本文從研究的總目標出發,采用系統分析的方法,結合物流園區與其空間載體的相互關系,注意空間載體對不同層次類別物流園區的適應性,建立一個系統完整、有機可行的評價指標體系。采用頻度統計法、理論分析法和專家咨詢法以滿足指標選擇的各項原則。本文選取GDP(X1)、人均GDP(X2)、GDP增長率(X3)、居民消費水平(X4)、工業總產值(X5)、工業增加值(X6)、社會消費品零售總額(X7)、交通運輸倉儲及郵電通信業(X8)、批發零售貿易業總額(X9)、制造業總額(X10)、實際利用外資額(X11)、進出口總額(X12)、外商投資企業數(X13)、社會貨運量(X14)、鐵路貨運量(X15)、公路貨運量(X16)、水路貨運量(X17)、鐵路網密度(X18)、公路網密度(X19)、公路貨物平均運距的倒數(X20)、地理區位(X21)、是否為全國通樞紐規劃城市(X22)等22項指標。
(2)主成分分析結果。以泛珠三角區域內9個省區為研究對象(考慮到數據的可得性,以及香港和澳門的特殊地位,文中未將兩個特區納入研究范圍),將9個省區的22項指標用主成分法進行分析,得到22個主成分。根據累計方差貢獻率超過85%的原則,提取前5個主成分作為第一、第二、……第五主成分,其累計方差貢獻率達98.064%(見表2)。這說明前5個主成分已提供了全部原始數據的98.064%的信息。
(3)聚類分析結果。根據主成分的計算方法,得到各主成分的特征向量,根據各主成分特征向量,計算前5個主成分的標準得分系數,將主成分的得分系數代替原始指標進行聚類分析。利用統計軟件SPSS12.0中的系統聚類方法,對9個省份進行R型聚類,即對個案聚類,得到聚類結果,如圖所示。
(4)泛珠三角區域物流園區空間類型定位。通過對各省區的聚類分析,從圖可以看出,泛珠三角地區物流園區空間類型可分為3類,廣東為一類,江西和湖南為一類,福建、廣西、貴州、海南、四川和云南等5省為一類。
結合實際可見,聚類分析的結果較符合實際。這3類都有各自的特點:
①廣東省是泛珠三角地區重要的交通樞紐,港口、機場和陸路交通十分發達,省區內多種運輸方式骨干線網交匯,工業商業、宏觀環境、經濟發展等優勢明顯,發展物流所依托的各方面資源都很好,因此,廣東省具備建成國際樞紐型物流園區的條件,廣東省在泛珠三角地區處于物流園區空間布局的最高層次,是物流園區布局的1類地區。
②江西和湖南兩省在泛珠三角地區中除廣東省外地區實力較強的省區,發展物流的綜合實力比較突出,因此,這兩個省份適于建成區域集散型物流園區,是物流園區空間布局的2類地區,適宜建成跨省區區長途運輸和省區城市間配送體系的轉換樞紐,承擔周邊省區與城市物流的集散功能。
③福建、廣西、貴州、海南、四川和云南5省發展物流的實力較弱,屬于物流園區空間布局的3類地區,即物流本地生成城市,適于建成城市型物流園區,主要保障商貿與城市生產,承擔各自省區的物流配送業務。
四、結語
文中選取反映物流業發展的22項指標,通過主成分分析法,建立主成分模型,在主成分分析的基礎上進行聚類分析,以主成分得分系數代替原始指標進行聚類,在聚類分析時,用多種聚類方法進行分析,聚類結果較為一致,這表明將主成分與聚類分析法相結合,可有效避免原始指標間存在相關性造成聚類偏差,聚類結果較為客觀準確。
本文在分析泛珠三角區域物流業發展的基礎上,為了合理對泛珠三角區域內各省區的物流園區進行定位,首先從宏觀層面,采用聚類分析法分析泛珠三角范圍內各省區的物流園區的空間類型,然后,從微觀層面,在確定各省區物流園區空間類型的基礎上,對各省區的物流園區功能進行定位,分析的結果較符合客觀實際。在目前物流園區建設熱中,可將該方法應用在確定全國物流園區的宏觀空間布局規劃中,通過分析全國物流園區空間類型,以便提高物流園區規劃建設的決策科學性,避免和減少極易出現的盲目投資和重復建設。
參考文獻:
[1]汪鳴:宏觀調控環境中物流的收獲與期待――2004年我國物流發展綜述[J].綜合運輸,2005
[2]王庭建:物流園區及其建設發展研究[J].物流科技,2005,28(114)
[3]張曉東:物流園區布局規劃理論研究[M].北京:中國物質出版社,2004
0 引言
近年來遼寧沿海經濟帶作為環渤海經濟圈整體開發的重要組成部分,經濟產生了飛速的發展,隨著經濟全球化進程的加快促使客運量和貨運量的快速增加,現代物流業已經成為了遼寧省的支柱產業,港口作為客運和貨運的最佳途徑在社會經濟發展中的作用日益凸顯,必然使得港口物流成為了發展現代物流業的重中之重。為了加快遼寧省港口物流的發展,提高港口物流效率,保持港口的持續性競爭優勢,就需要將各港口進行橫向的比較了解其地域差異,從而有針對性的提高遼寧沿海港口物流的效率 [1-2]。
1 研究方法
1.1 聚類分析方法與步驟
聚類分析[3](Cluster Analysis),亦稱群分析或點群分析,它是研究多要素事物分類問題的數量方法。在根據對象間的關聯程度進行聚類分析時,有些類別是屬于隱藏狀態的,聚類分析之前并不知道具體能夠分為幾種類別,因此要根據樣本自身的屬性,用數學方法按照某種相似性或差異性指標,定量地確定樣本之間的親疏關系,并按這種親疏關系程度對樣本進行聚類。在聚類分析中,聚類要素的選擇直接影響著分類結果的可靠性。
對聚類要素進行數據處理。假設有m個聚類的對象,每一個聚類對象都有x1…,x2,…xn個要素構成。在聚類分析中,常用的聚類要素的數據處理方法有總和標準化、標準差標準化、極大值標準化和極差標準化。
距離的計算。距離是系統聚類分析的依據和基礎,選擇不同的距離,則會使聚類結果產生差異,在地理分區和分類研究中,往往采用絕對值距離、歐式距離、明科夫斯基距離以及切比雪夫距離進行計算、對比,選擇一種較為合適的距離進行聚類。
利用計算和程序進行聚類。聚類分析的方法主要有直接聚類法、最短距離聚類法、、最遠距離聚類法、中線法、重心法、組平均法、距離平方和法、可變數平均法、可變法[3]這九種系統聚類分析方法。
1.2 指標選取
“十一五”以來,遼寧沿海港口集裝箱吞吐量雖然呈大幅度上升趨勢,但是與全國其他主要港口相比,其總體增長幅度處于全國中等水平,2000年全省港口集裝箱吞吐量為122萬TEU,2005年達到368.9萬TEU,2010年僅大連港就達到526.2萬TEU,而上海港達到2906.9萬TEU、深圳港2250.97萬TEU、寧波-舟山港1314.4萬TEU、青島港1201萬TEU、天津港1000萬TEU,是大連港的2-2.5倍。為了進一步了解遼寧沿海港口群各主要港口的差異情況,有必要從空間的角度來分析遼寧省沿海港口群的發展狀況。遼寧港口承擔了東北地區70%以上的海運貨物,80%以上的外貿物資和90%以上的外貿集裝箱運輸[4-5]。根據交通運輸部的統計數據,提取2010年1月份至10月份的遼寧主要港口企業內、外貿集裝箱吞吐量作為聚類分析的指標,從而對遼寧沿海港口物流的地域差異進行研究。
2 遼寧沿海港口物流的地域差異研究分析
在SPSS中,根據聚類的過程不同聚類方法主要分為三種:分層聚類法(Hierarchical Cluster)、K-均值聚類(K-Means Cluster)和兩步聚類(Two Step Cluster),本文選擇SPSS中的分層聚類法(Hierarchical Cluster)對遼寧沿海港口物流進行地域差異的分析。分層聚類分析又稱系統聚類分析,是聚類分析中最常用的方法,將關系密切與關系疏遠的分別聚合,直到把遼寧沿海的所有港口聚合成唯一的類別為止。首先,對原始指標數據進行處理,這里利用標準差標準化的對原始數據進行轉換,同時進行相似性與距離測度,然后對標準化后的數據進行聚類分析[6]。
用SPSS完成聚類運算各步驟之后,得出聚類分析結果的層次聚類樹形圖(如圖1所示),由圖可以看出,可將7個港口企業集裝箱碼頭分為三類,第一類包括(2,3);第二類包括(5,6);第三類包括(1,4,7)。從這個分類結果可以看出,大連集裝箱碼頭有限公司和大連港灣集裝箱碼頭有限公司競爭力最強,港口物流發展最快,營口集裝箱碼頭有限公司和營口新世紀集裝箱碼頭有限公司其次,丹東港集團集裝箱公司、錦州新時代集裝箱碼頭有限公司以及大連國際集裝箱碼頭有限公司發展相對較弱。這基本合遼寧港口物流發展的現狀,遼東半島以大連港作為集裝箱干線港的主要樞紐港,營口港、丹東港、錦州港等為支線港[7]。地處東北亞經濟發展圈中心的大連港,具有極其優越的發展區位,并且根據交通運輸部的統計,大連港在2010年我國沿海港口貨物吞吐量排名第六,營口排名第十,但是國際集裝箱運輸相對薄弱一些,2010年全年有六個月份以上在全國港口國際標準集裝箱吞吐量排名第八,營口港除4月、5月、6月三個月份排名第十之外,其余都未上榜,說明還需要加強國際標準集裝箱方面的發展。
3 結語
本研究提出通過采用聚類分析的方法來研究港口物流地域差異的問題,建立相應的數學模型并進行實際比較,所得比較結果有一定的說服力,對提高遼寧省港口物流發展以及相關政策的規定和執行有一定的參考價值。
參考文獻:
[1]李學工,楊賀.現代港口物流產業組織的空間布局.水運管理[J].2007(2).
[2]劉.環渤海港口競爭力的地域差異分析及因果研究[D].研究生碩士學位論文,2009.
[3]徐建華.現代地理學中的數學方法[M].高等教育,2009.
[4]戚馨,韓增林.遼寧省主要港口物流效率分析[J].港口物流,2007(10).
K-均值聚類算法因結構簡單、快速高效且適用于處理大數據集,在眾多科研領域得到廣泛應用。但它同時存在一些缺陷和不足,要求預先給定聚類個數;容易陷入局部極小值而得不到全局最優解等。針對以上問題研究人員提出了各種各樣的有效改進措施。文獻[1]的作者通過 DBI 聚類指標和最大最小距離方法來自動確定最佳聚類數目,較好地解決了 K-均值聚類算法中聚類數目 K 值的確定問題。文獻[2]提出一種有效的混合聚類算法,在一定程度上克服了 K-均值聚類算法和層次聚類算法各自的缺陷。文獻[3]提出一種基于變長編碼的改進遺傳算法,有效地解決了 K-均值聚類算法對初始中心選取敏感的問題。文獻[4]提出了一種基于密度及最近鄰相似度的初始聚類中心選取方法,大大提高聚類結果的穩定性。文獻[5]提出了一種基于數據對象在空間分布規律的新的初始聚類中心選取方法,有效解決由于初始中心選取的隨機性而導致的聚類結果不穩定的問題。本文利用分類領域中的特征選擇及特征加權方法,提出了一種改進的特征加權 K-均值聚類算法。實驗結果證明,所提出的算法能產生質量較高的聚類結果。
2.K-均值算法的改進
3.實驗結果
為了驗證本文所提出算法的有效性和可行性,選用 UCI 提供的機器學習公共數據庫中的5 個數據集對本文改進的聚類算法的聚類性能進行聚類實驗。(見表1)
從表 2 中不難看出,隨機選取初始聚類中心的傳統 K-均值算法得到的聚類結果準確率低且不穩定,而且對于有大值屬性存在的 Wine數據集,錯分數大大增加;而使用本文所設計的改進聚類算法所得到的聚類結果不僅準確率高,而且相對穩定。
4.結束語
本文針對傳統K-均值算法由于隨機選取初始聚類中心而導致聚類結果不穩定、準確率低的缺點,提出了一種改進的特征加權K-均值聚類算法。實驗結果表明,本文算法可以有效得到準確率高、較為穩定的聚類結果。
參考文獻:
[1] 馮超.K-means聚類算法的研究:[大連理工大學碩士學位論文].大連:大連理工大學,2007
[2] 曾志雄.一種有效的基于劃分和層次的混合聚類算法.計算機應用,2007
[3] 范光平.一種基于變長編碼的遺傳K均值算法研究:[浙江大學碩士學位論文].杭州:浙江大學,2007
[4] 孫可,劉杰,王學穎.K均值聚類算法初始質心選擇的改進.沈陽師范大學學報,2009
中圖分類號:H07 文獻標識碼:A 文章編號:1003-9082(2016)08-0374-01
方言關系計量分析結合計算機信息處理功能和統計學方法,可用于共時方言親疏關系、歷時方言親緣關系、方言分區和方言溝通度等研究。其歷史可以追溯到上個世紀五六十年代流行的歷史語言學分支――語言年代學,創始人是斯瓦迪士。而后,施萊赫爾受達爾文生物進化論的啟示,在語言學中最早使用譜系樹圖來表示語言的分化情況。
20世紀70年代起,方言學界就有學者運用計量分析法研究漢語方言分類問題,比如:鄭錦全(1973)利用陰調和陽調的不同調高計算漢語方言差異,陸致極(1986)對閩方言內部差異程度及分區進行了計算機聚類分析。此后,漢語方言關系計量研究先后出現了一些頗有影響的文章和專著:《漢語方言間親疏關系的計量描寫》(陸致極1987),《漢語方言親疏關系的計量研究》(鄭錦全1988),《比較方言學中的計量方法》(馬希文1989),《方言關系的計量研究》(王士元、沈鐘偉1992),《談漢語方言的定量研究》(沈榕秋1994),《聚類分析在漢語方言研究中的運用》(項夢冰2015)。鄭陸二人通過各方言詞匯的對比排列和古音在現代各方音里分化狀況的排列,使用“皮爾遜相關”(Pearson)和“非加權平均系聯法”(Non-weighted)來計算出詞匯、聲母、韻母、聲調等變量之間的相關系數,并用樹形圖顯示出它們的親疏關系。鄭錦全(1988)采用了平均系聯法(Group-average clustering),馬希文(1989)介紹了最短系連法(Minimun spanning tree)和主分量分析法(Principal components analysis),并用這些方法對鄭錦全的相關系數作了分析。王士元、沈鐘偉(1992)提出了分詞目計算的方法和計算方言間相關系數的Jaccard計算法公式。總的來說,過去的研究成果首先確立了計量分析法在漢語方言關系研究中的地位和作用,也明確了計量分析在漢語方言關系比較研究中所需要的材料、計量單位以及步驟和方法,同時也討論了相關系數的計算問題和嘗試了不同計量方法的實踐研究。
可以看出,用計量分析法研究漢語方言關系可以在一定程度上彌補以往“方言特征比較法”的主觀局限性,可以從數據上直觀地看出方言之間的相關系數。李如龍(2001):“共時的分類有時應該以一定的數量為界線的,量是區分不同質的依據;歷時的演變則往往是量變的積累引起質變的飛躍。這便是現代系統十分重視計量研究的原因。研究語言時重視計量研究這是現代的漢語研究工作的一大進步,但是這種方法還沒有得到應有的推廣。”
但是不是說定量分析就能解決所有問題,計量分析的結果可以和描寫比較的定性分析相結合,使得研究更具精密性和科學性。正如馬希文(1989)提到:“數理統計方法所做出的分析總是帶有隨機性的,不能把它和理論的、邏輯的分析同樣看待。在理論研究的預備階段,統計方法可以用來整理數據,以求發現規律性的東西。在理論研究暫時做不到定量化的階段,統計方法可以用來作為理論研究的補充。好的、合理的統計方法應該根據理論研究的成果來設計,在反復嘗試中逐步確立下來。”項夢冰(2015)也指出:“聚類分析雖然可以給漢語方言研究中的分類工作提供重要的參考,但倘若奉之為圭臬則未免失于偏頗。恰當的分類常常需要在綜合考慮各種因素之后在定性和定量之間取得平衡。”
目前,用計量方法研究方言的關系已被廣泛應用,見于不少單篇論文和學位論文中,如:《閩方言分區的計量研究》(楊鼎夫1994),《苗瑤語方言親疏關系的計量分析》(黃行1999),《吳語五地詞匯相關度的計量研究》(楊蓓2003),《湖南方言語音相關度計算與親疏關系聚類分析》(肖雙榮2004),《廉江市粵客詞匯相似度的計量分析》(邵慧君,秦綠葉2008),《梧州粵語和周邊勾漏粵語詞匯相似度的計量分析(粟春兵,王文勝,2011),《興安縣城話與周邊漢語方言語音親疏關系計量分析》(鄧盼2015),《廣州地區粵語的聲韻計量分析》(秦綠葉,2015)。學位論文有:《粵西三地粵語客話方言詞匯分析計量研究》(秦綠葉,華南師范大學碩士論文,2007),《廉州話與周邊粵語客話語音分析計量研究》(梁小玲,廣西民族大學碩士論文,2008),《梧州廣府粵語方言島與周邊方言詞匯相似度的計量研究》(粟春兵,杭州師范大學碩士論文,2012)。
綜上所述,方言計量分析結合計算機信息處理功能和統計學方法,在科技日益發達的今天,將是一個前景廣闊的領域。但是目前利用計算機從事方言研究的成果還是特別少,一個方面是因為很多研究人員已經習慣了傳統的研究方法,不愿再做進一步突破,甚至懷疑新的方法;另一個方面是研究人員知識有限,因為利用計算機研究方言需要研究人員首先需要一定的語言學功底,其次是相關的數理知識,同時還需要具備一定的計算機應用能力,但是我國傳統教育培養的人才很難兼具,如何突破這個瓶頸,需要研究人員做更多的努力。
語言計量研究本身也還存在一些問題。目前多數研究只在方言之間在語音和詞匯上的相關性和差異性上做了不少努力,從而對方言區的劃分以及親疏關系的梳理提供了不少有益的想法。但是比較方言關系選取什么語言特征,采用什么計算方法,是否考慮加權,如何確定語言之間的親緣或者接觸關系等等問題都是值得商榷的。總的來說,計量分析法在我國方言研究中剛剛起步,想取得更大的發展還需要更多的努力。
注釋
1秦綠葉.粵西三地粵語客話方言詞匯分析計量研究[D].華南師范大學,2007.
2李如龍.漢語方言的比較研究[M].北京:商務印書館,2001.
3劉玉屏.計算機在漢語方言研究中的應用[J]. 寧夏大學學報.2002(1).
參考文獻
[1]陸致極.漢語方言間親疏關系的計量描寫[J].中國社會科學.1987(1).
[2]鄭錦全.漢語方言親疏關系的計量研究[J].中國語文.1988(2).
[3]馬希文.比較方言學中的計量方法[J].中國語文.1989(5).
[4]王士元,沈鐘偉.方言關系的計量表述[J].中國語文.1992 (2).
[5]沈榕秋.談漢語方言的定量研究[J].語文研究.1994(2).
1.指標選取、數據來源與研究方法
1.1 指標選取
為了分析公共圖書館科研實力的區域水平,本文從論文產出的角度,運用文獻計量學對31個地區公共圖書館2002—2011年的科研產出進行評價,選取總數、基金資助論文數、核心期刊論文數、核心期刊率、被引篇數、被引頻次、篇均被引量、論文被引率、高頻被引論文數、高頻被引論文頻次、H指數作為評價指標,這些指標內容包含了論文產出規模和學術影響力,既有量的內容,也有質的反映,指標內容基本上反映了一個公共圖書館的科研實力,有關指標的說明詳見表1。
1.2數據來源
利用中國期刊全文數據庫統計各地區公共圖書館在2002—2011年發表的論文總數、核心期刊發文數和基金資助論文數;利用中國引文數據庫統計2002—2011年各地區公共圖書館論文被引篇數、被引頻次、高頻被引論文數、高頻被引論文頻次和H指數,統計時間為2012年10月;統計期刊按《中文核心期刊要目總覽(2004版)》7〕和《中文核心期刊要目總覽(2008版)》〔〕的圖書館學、情報學類核心期刊表;各地區公共圖書館名單來自《中國圖書館年鑒2010》。
經過統計、匯總和計算獲得2002—2011年31個地區的公共圖書館在上述11個指標的具體數據,如表2所示。表22002-2011年我國31個地區公共圖書館論文產出一覽表2.
1.3研究方法
1.3.1因子分析
因子分析是多元統計分析中應用廣泛的一種方
法,通過數據的降維,將具有一定關聯的多個變量進行高度概括,簡化為幾個互不相關的公共因子,每個因子都反映了某一類事物的共同特征。
1.3.2聚類分析
聚類分析是研究區域差異和劃分地域類型的常用方法。聚類分析的目的是根據數據的特征,計算各觀察個體或變量之間親疏關系,根據某種方法將觀察個體或變量分為若干類。本文采用SPSS分層聚類中的Q型聚類對31個地區公共圖書館進行分類分析,其中,個體距離采用平方歐氏距離,類間距離采用平均組間鏈鎖距離,根據各地區公共圖書館的科研實力劃分為不同類型的區域。
2數據分析
2.1因子分析及指標內涵
運用SPSS16.0統計軟件對表2中的11個變量進行因子分析,得到各變量的特征值,見表3。
從表3可知,因子1、因子2的累計貢獻率已達81.072%,根據累計貢獻率大于80%的原則選取主因子,因子1和因子2可以作為主因子,但為了更準確的解釋原有變量的信息,本文選擇前3個因子作為主因子(分別用F1、F2和R表示),它們的累計貢獻率已達到87.663%,可以比較準確地反映2002—2011年我國公共圖書館各地區的科研狀況。為了使各因子變量具有更好的解釋性,本文采用方差最大法進行正交旋轉,旋轉后的因子載荷矩陣如表4所示。
由表4可知:主因子F;i在核心期刊率、核心期刊論文數、高頻被引論文頻次、高頻被引論文數、H指數等指標上有較高的載荷,這5項指標代表了論文高影響力,因此,主因子R可以看成是一個質量因子;主因子R在論文總數、被引篇數、基金資助論文數、被引頻次等指標上有較高的載荷,這4項指標都是論文的數量指標,因此,主因子F可以看成是規模因子;主因子R在論文被引率、篇均被引量等指標上有較高的載荷,這2項指標反映了論文被引比重和篇均影響力,因此,主因子R可以看成另一個質量因子。
2.2 我國公共圖書館科研實力綜合評價
運用SPSS得分功能,可以直接得到各地區公共圖書館在上述3個主因子的得分,以3個主因子的方差貢獻率為權數,各地區公共圖書館科研實力綜合得分公式為:
F綜合=0.34119F1+0.31069F2+0.22475F3(1)將3個主因子的具體得分代入公式(1)中,各地區公共圖書館科研實力綜合得分與排名如表5所示
從表5科研實力綜合得分的排名來看,廣東省公共圖書館科研綜合實力最強,上海市僅次之;廣東、上海、湖南、黑龍江、浙江、江蘇、天津、遼寧、吉林、河南、寧夏11地區都在0分以上,其它20個地區都在0分以下。從各因子的單項排名看:
(1)在質量因子R論文局影響力上,上海市公共圖書館以3.109分名列榜首,學術影響力最大,廣東省公共圖書館次之,天津、寧夏、湖南名列前5名。
(2)在規模因子R上,廣東省以2.456分排名第1,浙江、遼寧、黑龍江、吉林、北京、河南、廣西、天津、江蘇、山東、重慶、貴州12地區緊隨其后,得分都在0分以上,其它地區得分都在0分以下。
(3)在質量因子R——論文被引比重和篇均影響力上,江蘇省以2.303分位于第1名,江西、福建、廣東,上海名列前5名。
綜合上述科研實力綜合得分排名與3個主因子單項排名,廣東省公共圖書館在論文產出的規模和質量上都名列前茅,綜合得分排名第1,顯示出其強大的科研產出實力;上海市在質量因子R上得分最高,學術影響力全國最大,綜合得分排名第2,但論文產出規模較小,規模因子得分僅排在第28名;遼寧、吉林兩省綜合得分名列前9名,規模因子得分排名前5名,但質量因子R得分卻排名最后。西藏,新疆,內蒙古三個地區公共圖書館科研實力的綜合得分排名最后,科研實力最弱,從表2可知,在11項指標中,各指標數量遠遠少于其它地區。
3.我國公共圖書館科研實力的類型劃分及區域差異分析
3.1科研實力的類型劃分
為了便于分析各地區公共圖書館科研產出的相同點和不同點,更加確切地描述我國公共圖書館科研實力的狀況,本文以各地區科研能力的綜合得分為變量進行聚類分析,把我國31個地區的公共圖書館分為7大類,見表6。
3.2 區域差異分析
為了分析不同區域的公共圖書館科研情況,按照表6所示類型列出各區域的指標平均值和各指標的基本描述(見表7)
第1類是廣東省。其在論文總數、核心期刊論文數、被引篇數、論文被引率、被引頻次、高頻被引論文數、H指數7個指標上均名列第1,論文產出規模最大,學術影響力較大,科研綜合實力在全國處于領先水平。
第2類是上海市。其在核心期刊率、篇均被引量、高頻被引論文頻次3個指標上均名列第1,在核心期刊論文數、被引頻次、高頻被引論文數、H指數4個指標上均名列第2,其學術影響力最大,但在論文產出規模因子上的分值偏低,科研綜合實力在全國處于優勢地位。
第3類是湖南、黑龍江、浙江、江蘇、天津5個地區。科研綜合實力得分僅次于廣東省和上海市,江蘇省在被引比重和篇均影響力因子上得分第1,但在論文高影響力上得分較低;湖南省得分較均衡;天津市在論文高影響力上得分較高,但在被引比重和篇均影響力因子上得分較低;黑龍江和浙江兩省在規模因子上得分很高,但在質量因子上得分較低。從表7得知,該區域的大多數指標數量低于廣東、上海,但又高于其它區域,科研綜合實力較強。
第4類是遼寧、吉林、河南3個地區。遼寧、吉林兩省在規模因子上得分較高,但在論文高影響力因子上得分排名最后;河南省得分較均衡。從表7可知:該區域除在基金資助論文數量上高于第III類區域外,其它指標數量均低于第III類區域,科研綜合實力處于全國中游水平。
第5類是寧夏、福建2個地區。寧夏地區在論文高影響力上得分偏高,但在規模因子、被引比重和篇均影響力因子上得分很低;福建省在論文被引比重和篇均影響力上得分偏高,但在其他兩個因子上得分較低。從表7可知,該區域除核心期刊論文數高于第W類區域、核心期刊率高于第III類和第IV類區域外,其它指標均低于前幾類區域,科研綜合實力處于全國下游水平。
第6類是北京、河北、山西、安徽、江西、山東、湖北、廣西、重慶、四川、貴州、陜西、甘肅13個地區。該區域科研綜合實力偏低,江西省在被引比重和篇均影響力因子上得分偏高;北京、廣西在規模因子上得分較高,其它地區在三個因子上得分都不高。從表7看出,該區域除論文總數高于第V類區域外,其它指標數量均低于前五類區域,科研綜合實力處于全國偏弱水平。
第7類是青海、海南、云南、內蒙古、西藏、新疆6個地區。從表7中可看出,該區域公共圖書館科研實力各項指標的數量都遠遠小于其它區域,除了個別地區在某個因子上得分較高外,大多地區在各個因子中的得分和科研實力綜合得分都處于全國落后地位。
同時對表7中各指標的描述性分析看出,比值最大的指標是高頻被引論文頻次(417.17次),最高的是上海市(2503次),最低的是第V類區域(6次)。標準差反映了組內個體之間的離散程度、差距的大小,除了論文被引率標準差較小(0.19)外,其它10個指標的標準差都較大,最大的是論文被引頻次,達到了2934.81。從以上分析得出:我國各地區公共圖書館科研實力差異較大,中東部高于西部。
4.結論及建議
4. 1結論
(1)區域間科研綜合實力差異懸殊。不論是以科研實力綜合得分為變量進行聚類分析還是以三個主因子的得分作為變量進行聚類分析(由于篇幅有限,本文不再闡述用因子得分變量進行聚類的過程),第丄類地區的廣東省和第2類地區上海市都是單獨聚類,再次體現了在科研產出規模和影響力上的突出優勢。雖然第III類、第w類、第V類、第w區域中有的省份在某些因子中得分較高,但其平均綜合得分尚不及第丄類地區、第2類地區的一半,第VII類地區在論文產出的各項指標上基本上全處于落后地位,與其它地區有著巨大的差距。
(2)區域內科研產出差異較大。在第III類地區中,天津市在論文高影響力因子上的得分遠高于浙江省,江蘇省在被引比重和篇均影響力因子上的得分遠高于天津市;在第w類地區,河南省在論文高影響力因子上的得分遠高于遼寧省;在第V類地區,寧夏在論文高影響力因子上的得分遠高于福建省,而在論文被引比重和篇均影響力因子上的得分遠低于福建省。
(3)地區內部科研產出存在很大差異。在統計數據過程中發現,地區內部的公共圖書館科研產出也存在很大差異,很多地區的市級圖書館10年間很少,大多數基層(縣級)圖書館幾乎沒有,一個地區公共圖書館的科研實力主要由省級圖書館的科研實力所決定。但科研實力綜合得分名列前茅的幾個地區,市級圖書館或區級圖書館在論文產出規模和影響力方面,都有一定的優勢,如廣東省的深圳圖書館、廣州圖書館、佛山市圖書館、汕頭市圖書館、東莞圖書館、廣州少年兒童圖書館、深圳市南山圖書館、深圳市寶安區圖書館等;湖南省的長沙市圖書館、岳陽市圖書館、常德市圖書館等;浙江省的溫州市圖書館、杭州圖書館、衢州市圖書館等;黑龍江省的哈爾濱市圖書館、齊齊哈爾市圖書館、牡丹江市圖書館等。由此看出,一個地區的公共圖書館只有“百花齊放”,才能提升整個地區的科研綜合實力。
(4)需要從多個方面對公共圖書館的科研實力進行全面評價。本文只是從論文產出的角度對地區公共圖書館進行了科研實力評價,更全面的科研能力測度還需考慮期刊的影響因子、著作、專利、基金課題的級別、期刊對本地作者的傾向性和社會影響等因素。參考有關單位對科研實力評價的各種方法,不但包括對學術隊伍、學歷水平、努力程度、人均產出等內部因素的評價,還要包括對科研經費投入、資料設備、科研激勵、科研氛圍、地區經濟發展水平等外部因素的評價。如何設計出更加合理的評價指標體系,對公共圖書館科研實力進行評價,期待有更多的學者進行研究。
3. 2建議