數(shù)據(jù)挖掘技術(shù)探討論文大全11篇

時間:2023-03-25 10:46:30

緒論:寫作既是個人情感的抒發(fā),也是對學術(shù)真理的探索,歡迎閱讀由發(fā)表云整理的11篇數(shù)據(jù)挖掘技術(shù)探討論文范文,希望它們能為您的寫作提供參考和啟發(fā)。

數(shù)據(jù)挖掘技術(shù)探討論文

篇(1)

專業(yè)

計算機科學與技術(shù)

學生姓名

楊宇瀟

學號

181719251864

一、 選題的背景、研究現(xiàn)狀與意義

為什么大數(shù)據(jù)分析很重要?大數(shù)據(jù)分析可幫助組織利用其數(shù)據(jù)并使用它來識別新的機會。反過來,這將導(dǎo)致更明智的業(yè)務(wù)移動,更有效的運營,更高的利潤和更快樂的客戶。

在許多早期的互聯(lián)網(wǎng)和技術(shù)公司的支持下,大數(shù)據(jù)在2000年代初的數(shù)據(jù)熱潮期間出現(xiàn)。有史以來第一次,軟件和硬件功能是消費者產(chǎn)生的大量非結(jié)構(gòu)化信息。搜索引擎,移動設(shè)備和工業(yè)機械等新技術(shù)可提供公司可以處理并持續(xù)增長的數(shù)據(jù)。隨著可以收集的天文數(shù)據(jù)數(shù)量的增長,很明顯,傳統(tǒng)數(shù)據(jù)技術(shù)(例如數(shù)據(jù)倉庫和關(guān)系數(shù)據(jù)庫)不適合與大量非結(jié)構(gòu)化數(shù)據(jù)一起使用。 Apache軟件基金會啟動了第一個大數(shù)據(jù)創(chuàng)新項目。最重要的貢獻來自Google,Yahoo,F(xiàn)acebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是復(fù)雜數(shù)據(jù)準備和ETL的旗艦,可以為許多數(shù)據(jù)存儲或分析環(huán)境提供信息以進行深入分析。 Apache Spark(由加州大學伯克利分校開發(fā))通常用于大容量計算任務(wù)。這些任務(wù)通常是批處理ETL和ML工作負載,但與Apache Kafka等技術(shù)結(jié)合使用。

隨著數(shù)據(jù)呈指數(shù)級增長,企業(yè)必須不斷擴展其基礎(chǔ)架構(gòu)以最大化其數(shù)據(jù)的經(jīng)濟價值。在大數(shù)據(jù)的早期(大約2008年),Hadoop被大公司首次認可時,維護有用的生產(chǎn)系統(tǒng)非常昂貴且效率低下。要使用大數(shù)據(jù),您還需要適當?shù)娜藛T和軟件技能,以及用于處理數(shù)據(jù)和查詢速度的硬件。協(xié)調(diào)所有內(nèi)容同時運行是一項艱巨的任務(wù),許多大數(shù)據(jù)項目都將失敗。如今,云計算已成為市場瞬息萬變的趨勢。因為各種規(guī)模的公司都可以通過單擊幾下立即訪問復(fù)雜的基礎(chǔ)架構(gòu)和技術(shù)。在這里,云提供了強大的基礎(chǔ)架構(gòu),使企業(yè)能夠勝過現(xiàn)有系統(tǒng)。

二、 擬研究的主要內(nèi)容(提綱)和預(yù)期目標

隨著行業(yè)中數(shù)據(jù)量的爆炸性增長,大數(shù)據(jù)的概念越來越受到關(guān)注。 由于大數(shù)據(jù)的大,復(fù)雜和快速變化的性質(zhì),許多用于小數(shù)據(jù)的傳統(tǒng)機器學習算法不再適用于大數(shù)據(jù)環(huán)境中的應(yīng)用程序問題。 因此,在大數(shù)據(jù)環(huán)境下研究機器學習算法已成為學術(shù)界和業(yè)界的普遍關(guān)注。 本文主要討論和總結(jié)用于處理大數(shù)據(jù)的機器學習算法的研究現(xiàn)狀。 另外,由于并行處理是處理大數(shù)據(jù)的主要方法,因此我們介紹了一些并行算法,介紹了大數(shù)據(jù)環(huán)境中機器學習研究所面臨的問題,最后介紹了機器學習的研究趨勢,我們的目標就是研究數(shù)據(jù)量大的情況下算法和模型的關(guān)系,同時也會探討大部分細分行業(yè)數(shù)據(jù)量不大不小的情況下算法的關(guān)系。

三、 擬采用的研究方法(思路、技術(shù)路線、可行性分析論證等)

 1.視覺分析。大數(shù)據(jù)分析用戶包括大數(shù)據(jù)分析專業(yè)人士和一般用戶,但是大數(shù)據(jù)分析的最基本要求是視覺分析。視覺分析直觀地介紹了大數(shù)據(jù)的特征,并像閱讀照片的讀者一樣容易接受。 2.數(shù)據(jù)挖掘算法。大數(shù)據(jù)分析的理論中心是數(shù)據(jù)挖掘算法。不同的數(shù)據(jù)挖掘算法依賴于不同的數(shù)據(jù)類型和格式來更科學地表征數(shù)據(jù)本身。由于它們被全世界的統(tǒng)計學家所公認,因此各種統(tǒng)計方法(稱為真值)可以深入到數(shù)據(jù)中并挖掘公認的值。另一方面是這些數(shù)據(jù)挖掘算法可以更快地處理大數(shù)據(jù)。如果該算法需要花費幾年時間才能得出結(jié)論,那么大數(shù)據(jù)的價值是未知的。 3.預(yù)測分析。大數(shù)據(jù)分析的最后一個應(yīng)用領(lǐng)域是預(yù)測分析,發(fā)現(xiàn)大數(shù)據(jù)功能,科學地建立模型以及通過模型吸收新數(shù)據(jù)以預(yù)測未來數(shù)據(jù)。 4.語義引擎。非結(jié)構(gòu)化數(shù)據(jù)的多樣化為數(shù)據(jù)分析提出了新的挑戰(zhàn)。您需要一套工具來分析和調(diào)整數(shù)據(jù)。語義引擎必須設(shè)計有足夠的人工智能,以主動從數(shù)據(jù)中提取信息。 5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。大數(shù)據(jù)分析是數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理的組成部分。高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理確保了分析結(jié)果在學術(shù)研究和商業(yè)應(yīng)用中的可靠性和價值。大數(shù)據(jù)分析的基礎(chǔ)是前五個方面。當然,如果您更深入地研究大數(shù)據(jù)分析,則還有更多特征,更深入,更專業(yè)的大數(shù)據(jù)分析方法。

四、 論文(設(shè)計)的工作進度安排

2020.03.18-2020.03.20 明確論文內(nèi)容,進行相關(guān)論文資料的查找與翻譯。2020.04.04-2020.04.27:撰寫開題報告 。

2020.04.28-2020.04.30 :設(shè)計實驗。

2020.05.01-2020.05.07 :開展實驗。

2020.05.08-2020.05.15 :準備中期檢查。

2020.05.16-2020.05.23:根據(jù)中期檢查的問題,進一步完善實驗2020.05.24-2020.05.28 :完成論文初稿。

2020.05.29-2020.06.26 :論文修改完善。

 

五、 參考文獻(不少于5篇)

1 . 王偉,王珊,杜小勇,覃雄派,王會舉.大數(shù)據(jù)分析——rdbms與mapreduce的競爭與共生 .計算機光盤軟件與應(yīng)用,2012.被引量:273.

2 . 喻國明. 大數(shù)據(jù)分析下的中國社會輿情:總體態(tài)勢與結(jié)構(gòu)性特征——基于百度熱搜詞(2009—2 012)的輿情模型構(gòu)建.中國人民大學學報,2013.被引量:9. 3 . 李廣建,化柏林.大數(shù)據(jù)分析與情報分析關(guān)系辨析.中國圖書館學報,2014.被引量:16.

4 . 王智,于戈,郭朝鵬,張一川,宋杰.大數(shù)據(jù)分析的分布式molap技術(shù) .軟件學報,2014.被引量:6.

5 . 王德文,孫志偉.電力用戶側(cè)大數(shù)據(jù)分析與并行負荷預(yù)測 .中國電機工程學報,2015.被引量:19.

6 . 江秀臣,杜修明,嚴英杰,盛戈皞,陳玉峰 ,郭志紅.基于大數(shù)據(jù)分析的輸變電設(shè)備狀態(tài)數(shù)據(jù)異常檢測方法 .中國電機工程學報,2015.被引量:8.

7 . 喻國明. 呼喚“社會最大公約數(shù)”:2012年社會輿情運行態(tài)勢研究——基于百度熱搜詞的大 數(shù)據(jù)分析.編輯之友,2013.被引量:4.

六、指導(dǎo)教師意見

 

 

 

 

 

 

 

 

簽字:                  年     月    日

七、學院院長意見及簽字

 

 

 

 

 

 

篇(2)

【中圖分類號】G420 【文獻標識碼】A 【論文編號】1009―8097(2009)06―0104―03

數(shù)據(jù)挖掘技術(shù)可以從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中人們事先不知道的,但又是潛在有用的信息和知識的過程。通過這種技術(shù)把獲取的信息和知識提供給決策支持系統(tǒng)。這種技術(shù)已廣泛地用于各種應(yīng)用,包括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計和科學探索等[1,2,3] ,隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘在網(wǎng)絡(luò)教學中的應(yīng)用研究也逐漸深入[4,5,6] 。網(wǎng)絡(luò)教學成為一種新型教學手段,理論上學習者可以在任何時間、任何地點以任何形式、從任何章節(jié)開始學習任何內(nèi)容,實現(xiàn)個性化學習。但在網(wǎng)絡(luò)教學實施過程中,教學內(nèi)容和組織活動卻不能隨著學生的學習狀況發(fā)生動態(tài)變化,導(dǎo)致了教與學脫離的現(xiàn)象,教學效果達不到預(yù)期效果。因此可以利用該技術(shù)對收集到的與學生學習相關(guān)的歷史數(shù)據(jù)進行分析,從而可以為教師深入理解學生的實際學習情況,制定相關(guān)的教學目標供 其學習提供有力的決策支持,是提升教學效果的有力手段。

一 擬解決的關(guān)鍵問題

本文探討 在現(xiàn)有的網(wǎng)絡(luò)教學平臺基礎(chǔ)上,以在教學信息數(shù)據(jù)庫中采集到的學生學習記錄為樣本,應(yīng)用數(shù)據(jù)挖掘技術(shù),挖掘有用的規(guī)則,探討學生的學習習慣, 學習興趣和學習成績間的關(guān)系,從而及時了解學生對每一章節(jié)知識的掌握程度并根據(jù)每個學生的情況制定下一章節(jié)的教學目標,為其提供不同的教學內(nèi)容,從而使教學更適合學生

個性的發(fā)展,實現(xiàn)網(wǎng)絡(luò)分層教學,最終實現(xiàn)教學過程的動態(tài)調(diào)節(jié)。

二 數(shù)據(jù)預(yù)處理

由于人為的原因、設(shè)備的故障及數(shù)據(jù)傳輸中的錯誤,導(dǎo)致現(xiàn)實世界的數(shù)據(jù)含有臟的、不完整的和不一致的數(shù)據(jù)。數(shù)據(jù)預(yù)處理技術(shù)可以檢測數(shù)據(jù)異常,調(diào)整數(shù)據(jù)并歸約待分析的數(shù)據(jù),從而改進數(shù)據(jù)的質(zhì)量,提高其后挖掘過程的精度和性能。

本文數(shù)據(jù)源于《數(shù)據(jù)結(jié)構(gòu)》網(wǎng)絡(luò)教學課程,48節(jié)理論課,24節(jié)實驗,4.5個學分。學生111人,其中06級信息與計算科學專業(yè)班合計64人,07級地理信息系統(tǒng)專業(yè)一個班計47人。針對1節(jié)提出的問題,本文通過對網(wǎng)絡(luò)教學平臺教學信息數(shù)據(jù)庫中的學生信息表、學生學習進度表、測試信息表等進行數(shù)據(jù)挖掘,說明其在網(wǎng)絡(luò)教學中的應(yīng)用。各表結(jié)構(gòu)如表1至表3所示(本文中學生信息經(jīng)過掩飾處理)。

其中內(nèi)容是指客觀性考題,如單項選擇題等。主觀性考題,如算法設(shè)計之類考題可以以教師組織的BBS討論為依據(jù)評分,在此以有效討論次數(shù)(有實質(zhì)性的討論內(nèi)容)計算。

首先去除數(shù)據(jù)表中的冗余信息,如學生信息表中除學號信息以外的各分項信息,每一章節(jié)學習進度表中的節(jié)、日期信息,每章測試信息表中的題號、內(nèi)容、答案等信息;對某些匯總數(shù)據(jù)項進行離散化處理,如將測試信息表中得分匯總后分為(0,59),(60,85),(85,100)等 3個組并概化為不及格,合格和優(yōu)秀三個層次;學習時間匯總后分為(0,2),(2,4),(4,6),(6,)等 四個組,單位:小時;學習次數(shù)匯總后分為(0,3),(3,6),(6,)等 三個組,BBS討論匯總后分為(0,3),(3,6),(6,)并 概化為積極,參與和不積極三個層次[7];同時下一章節(jié)的教學目標制定為三個層次,內(nèi)容呈現(xiàn)分別表示為A類、B類、C類三個層次的內(nèi)容,提供給學生學習。然后檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進行處理。經(jīng)過數(shù)據(jù)預(yù)處理工作,得到一張描述學生學習過程信息的數(shù)據(jù)表格,表4是我們整理出的某一章節(jié)的學生學習情況數(shù)據(jù)。

三 數(shù)據(jù)挖掘過程

主要是利用關(guān)聯(lián)分析、序列模式分析、分類分析和聚類分析等分析方法對數(shù)據(jù)庫中的潛在規(guī)則進行挖掘。針對1節(jié)中提出的問題,根據(jù)國內(nèi)外對各類模式挖掘算法的研究[8,9],本文采用FP-Tree關(guān)聯(lián)規(guī)則挖掘算法進行關(guān)聯(lián)規(guī)則挖掘和用于 分類模型判定樹歸納算法進行數(shù)據(jù)挖掘。

1 關(guān)聯(lián)規(guī)則挖掘

關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,通過這種挖掘技術(shù)對表4進行挖掘,可以發(fā)現(xiàn)學生的學習時間、學習次數(shù)及網(wǎng)絡(luò)課堂討論和學習效果之間的關(guān)系,使教師了解學生的網(wǎng)上學習行為和目標掌握程度,幫助教師調(diào)整教學計劃,如設(shè)計有意義的討論課題提升學生的學習興趣,從而間接增加學生的學習時間和學習次數(shù)。

首先給出關(guān)聯(lián)規(guī)則的形式化描述:設(shè) 是m個項的集合,D是數(shù)據(jù)庫事務(wù)的集合,每個事務(wù)有一個標識符。關(guān)聯(lián)規(guī)則就是形如 的蘊含式,其中 ,并且 。規(guī)則的支持度記為 ,是事務(wù)D中包含的 事務(wù)數(shù)與所有事務(wù)數(shù)之比,置信度記為 ,是指包含的 事務(wù)數(shù)與包含的 事務(wù)數(shù)之比。

給定事務(wù)數(shù)據(jù)庫D挖掘關(guān)聯(lián)規(guī)則問題就是產(chǎn)生支持度、置信度分別大于用戶給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。

表5是使用FP-Tree算法對學生學習情況表進行挖掘得到的一系列關(guān)聯(lián)規(guī)則(因篇幅限制,本文僅列出部分內(nèi)容)。

從上表可以看出,學習時間在6小時以上并且成績?yōu)閮?yōu)秀的同學占全班的20.51%,學習時間6小時以上的同學中有34.78%的學生成績?yōu)閮?yōu)秀。學習時間在2小時以下的并且成績不及格的同學占全班的7.69%,學習時間2小時以下的同學中有75%的學生成績不及格。學習時間在6小時以上,學習次數(shù)多于6次且成績?yōu)閮?yōu)秀的學生占全班的7.69%,這部分同學中有75%也積極參與BBS討論,而學習時間少于2小時,次數(shù)少于3次,基本不參與討論的同學,不及格率為100%,這部分同學占全班的7.69%。比例明顯偏高,需要調(diào)整教學的內(nèi)容和設(shè)計討論問題以提高學生的興趣。從表中還可以看出,學習次數(shù)多于6次的學生中有92.31%的學生其學習時間一般也會超過6小時,這部分學生占全班的61.54%,通過關(guān)聯(lián)規(guī)則的挖掘,可以掌握學生網(wǎng)上學習行為,從而為教師的教學策略調(diào)整提供依據(jù),可以更好地進行學生的培養(yǎng)。

2 分類模型挖掘

著名的心理學家、教育學家布盧姆提出的掌握學習理論認為:“只要在提供恰當?shù)牟牧虾瓦M行教學的同時給每個學生提供適度的幫助和充分的時間,幾乎所有的學生都能完成學習任務(wù)或達到規(guī)定的學習目標”。

通過構(gòu)造判定樹可以建立學生分層教學模型,并依據(jù)判定樹為學生提供不同層次的教學內(nèi)容而 實現(xiàn)對學生的網(wǎng)絡(luò)分層教學。分類模型判定樹歸納算法主要表述為計算每個屬性的信息增益,將具有最高信息增益的屬性選作 給定樣本集合的測試屬性,創(chuàng)建樹的結(jié)點,并以該屬性標記,對屬性的每個值創(chuàng)建分支,并據(jù)此劃分樣本。由于樣本數(shù)據(jù)中存在噪聲或孤立點,通過樹剪枝去除不合理的分支,以提高在未知數(shù)據(jù)上分類的準確性。據(jù)此算法構(gòu)造的判定樹如圖1所示。

判定樹的第一層條件為每一章節(jié)的單元測試成績,分別表示為優(yōu)秀、合格和不及格。不及格的同學下一章節(jié)進入C類教學目標學習,優(yōu)秀的同學則進入A類教學目標學習,合格的同學則根據(jù)學習的次數(shù)決定下一章節(jié)的教學目標。學習次數(shù)為0~2次的同學進入B類教學目標學習,3~5次的同學則需要根據(jù)學習時間判定,根據(jù)判定樹可知,所有同學進入B類教學目標學習,這和我們?nèi)粘5呐袛噙壿嬒喾?,因為學習次數(shù)較多,學習時間較長,但成績卻是合格的同學很有可能是因為方法不當?shù)仍驅(qū)е陆邮苤R能力較差,進入A類目標學習顯然是不合理的。當學習次數(shù)大于6次時,可以根據(jù)學生參與BBS討論的次數(shù)決定學生的下一章節(jié)的學習目標,討論次數(shù)0~2次的同學其學習目標定為B類,3次以上的同學其學習目標則定為A類,這類學生表現(xiàn)出對知識的渴求,興趣較濃,理解知識的能力相對較強。

本文為全文原貌 未安裝PDF瀏覽器用戶請先下載安裝 原版全文

根據(jù)判定樹,可以根據(jù)學生學習本章節(jié)的實際情況對學生學習下一章節(jié)內(nèi)容的效果進行預(yù)測,據(jù)此對學生進行分類,提供不同的教學內(nèi)容供其學習,以提高整體教學質(zhì)量。

參考文獻

[1] 湯小文,蔡慶生. 數(shù)據(jù)挖掘在電信業(yè)中的應(yīng)用[J].計算機工程,2004,30(6):36-37,41.

[2] 楊引霞,謝康林,朱揚勇等.電子商務(wù)網(wǎng)站推薦系統(tǒng)中關(guān)聯(lián)規(guī)則推薦模型的實現(xiàn)[J].計算機工程, 2004, 30(19):57-59.

[3] 印鑒,陳憶群,張鋼.基于數(shù)據(jù)倉庫的聯(lián)機分析挖掘系統(tǒng)[J].計算機工程,2004,30(19):49-51.

[4] 楊清蓮,周慶敏,常志玲.Web挖掘技術(shù)及其在網(wǎng)絡(luò)教學評價中的應(yīng)用[J].南京工業(yè)大學學報(自然科學版),2005, 27(5):100-103.

[5] 劉革平,黃智興,邱玉輝.基于數(shù)據(jù)挖掘的遠程學習過程評價系統(tǒng)設(shè)計與實現(xiàn)[J].電化教育研究,2005,(7):67-69.

[6] 孫瑩,程華,萬浩.基于數(shù)據(jù)挖掘的遠程學習者網(wǎng)上學習行為研究[J].中國遠程教育,2008,(5):44-47.

[7] 龔志武.關(guān)于成人學生網(wǎng)上學習行為影響因素的實證研究[J].中國電化教育,2004,(8):32-34.

[8] Sarwar B, Karypis G, Konstan J,et al. Analysis of Recommendation Algorithms for E-commerce [Z]. ACM Conference on Electronic Commerce, 2000.

[9] Tung A K H, Lu Hongjun, Gan Jiawei,et al. Efficient Mining of Interransaction Association Rules [Z]. IEEE Transactions onKnowledge and Data Engineering, 2003, 15(1).

Application of Data Mining in Network Teaching

SUN Yu-rong1LUO Li-yu2HUANG Hui-hua1

(1.College of Science, Central South University of Forestry and Technology, Changsha ,Hunan, 410004, China;2.The Journal Editorial Department, Hunan University of Technology,Zhuzhou, Hunan, 412007,China)

篇(3)

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是一個涉及多學科交叉的研究領(lǐng)域,綜合了人工智能、機器學習、數(shù)理統(tǒng)計等學科,它把對數(shù)據(jù)的應(yīng)用從較低層次的簡單的查詢提升到從數(shù)據(jù)中挖掘知識。簡單的說,數(shù)據(jù)挖掘就是從數(shù)據(jù)中獲取知識。從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘應(yīng)該更正確地命名為“從數(shù)據(jù)中挖掘知識”。

二、數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘過程大概可以概括為三部分:數(shù)據(jù)準備、數(shù)據(jù)挖掘、結(jié)果的表達和解釋。如圖1-1。

三、數(shù)據(jù)挖掘的特點

數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識,所得到的信息具有事先未知、有效、實用三個特征;用戶不必提出明確的要求,系統(tǒng)能夠根據(jù)數(shù)據(jù)本身的規(guī)律性,自動地挖掘數(shù)據(jù)潛在的模式,或通過分析建立新的業(yè)務(wù)模型,幫助決策者調(diào)整市場策略,這有利于發(fā)現(xiàn)未知的事物。因此,它是由數(shù)據(jù)驅(qū)動的一種真正的知識發(fā)現(xiàn)方法。

四、學生成績管理的現(xiàn)狀

隨著高校招生規(guī)模的擴大使成績管理處理的數(shù)據(jù)量急劇增加,存放在數(shù)據(jù)庫中的大量的成績數(shù)據(jù),對于一般的查詢過程是有效的,管理人員能夠通過簡單的統(tǒng)計或排序等功能獲得一些表面的信息,但隨著數(shù)據(jù)庫中存儲的數(shù)據(jù)量的增大,傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)的數(shù)據(jù)管理和處理功能就不能滿足現(xiàn)實的需要,因為無論是查詢、排序還是方差,其處理方式都是對指定的數(shù)據(jù)進行簡單的數(shù)字處理,對于學生成績管理方面,往往只能做一些簡單的功能,由于大量數(shù)據(jù)以不同的形式存儲在不同的計算機上,從而使隱藏在其中的大量有用信息無法得到有效的利用,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)聯(lián)和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。上述問題直接導(dǎo)致教學管理部門無法進行有效的評估,任課教師無法進行有效的教學方法改進。而如何將這些數(shù)據(jù)信息轉(zhuǎn)化為知識表示,為學校管理者提供決策依據(jù),科學指導(dǎo)教學,提高教學管理水平,將是高校需要迫切解決的問題。

五、將數(shù)據(jù)挖掘技術(shù)在成績管理中的應(yīng)用

1、學生成績分析方面

學生的學習成績是評估學生表現(xiàn)好壞的重要依據(jù),也是學生是否掌握好所學知識的重要標志,目前高校使用的成績管理系統(tǒng)大部分只能做一些簡單的數(shù)據(jù)管理和處理,例如:學生的平時成績輸入、考試成績輸入、畢業(yè)設(shè)計成績登記,進行各類統(tǒng)計報表和信息查詢、分析某一個班學生學習成績分布的情況等。目前大量的成績數(shù)據(jù)只是簡單地存儲在數(shù)據(jù)庫中,隱藏在這些數(shù)據(jù)中的潛在信息被閑置,沒能被充分利用。在數(shù)據(jù)庫中學生成績分析從定性的角度考慮不是很精確,而數(shù)據(jù)挖掘是從定量的角度精確地分析學生成績分析的各個方面數(shù)據(jù)。

2、在考試方面

考試是對教師教學效果和學生學習效果的一個檢驗,是教學中必不可少的環(huán)節(jié),雖然按考試成績可以總體評價在一定時期內(nèi)學生取得的成績,但這并不能有效地說明成績的高低與哪些因素有關(guān),無法知道教師教學環(huán)節(jié)中的成功與不足之處,對教師教學方法的改進和學生學習成績的提高都沒有實際意義上的幫助,而且,學生考試成績的高低也與試題的質(zhì)量有著很大的關(guān)系,因此探索有效的方法來評價試題的質(zhì)量如試題難易度,知識點全面度等在實際的教學過程中同樣具有重要的意義。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于試卷分析數(shù)據(jù)庫中,然后根據(jù)學生得分情況分析出每道題的難易度、區(qū)分度、相關(guān)度等指標,那么據(jù)此,教師可以對試題的質(zhì)量作出比較準確的評價,進而可以用來檢查自己的教學情況及學生的掌握情況,并為今后的教學提供指導(dǎo)。

2、在教學評價方面

教學評價是教學中的一個重要環(huán)節(jié),是引導(dǎo)教育、培養(yǎng)高素質(zhì)人才,幫助社會充分利用教育成果和促進教育健康發(fā)展的保證。傳統(tǒng)的教學評價大多是參考相關(guān)評價指標體系和調(diào)查問卷等方式實施的,而且更是注重評價的結(jié)果,以作為教師晉升、學生評優(yōu)等的依據(jù).高校每學期都要搞課堂教學評價調(diào)查,積累了大量的教學信息數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù),從教學評價數(shù)據(jù)中進行數(shù)據(jù)挖掘,探討教學效果的好壞與教師的年齡、職稱之間有無必然的聯(lián)系,課堂教學效果與教師整體素質(zhì)關(guān)系如何,合理配備班級的上課教師,使學生能夠較好的保持良好的學習態(tài)度,從而為教學部門提供了決策支持信息,促使更好地開展教學工作,提高教學質(zhì)量。

3、選擇教師的教學方法方面

在教學過程中,教師可以采用多種方法來完成自己的教學任務(wù),比如講授法、多媒體演示、分組討論法、課程實習法等,在通常情況下,一般可以采取一種或幾種方法進行.據(jù)此可用數(shù)據(jù)挖掘的方法來挖掘數(shù)據(jù)庫中的數(shù)據(jù),判定下一步應(yīng)采取什么樣的教學方法,以滿足教學的需要,更有利于學生對知識的吸收。

4、課程的合理設(shè)置方面

在學校,學生的課堂學習是循序漸進的,而且課程之間有一定的關(guān)聯(lián)與前后順序關(guān)系,在學一門較高級課程之前必須先修一些先行課程,如果先行課程沒有學好,勢必會影響后續(xù)課程的學習,此外,每一學期安排課程的多少,也會影響學生的學習效果。利用學校教務(wù)管理系統(tǒng)中存放的歷屆學生各門學科的考試成績,結(jié)合數(shù)據(jù)挖掘技術(shù)的相關(guān)功能,得出一些有價值的規(guī)則和信息,最終找到影響學生成績的原因,在些基礎(chǔ)上,對課程設(shè)置做出合理安排。

六、結(jié)束語

隨著我國各高校管理信息化的不斷推進,各類學校的數(shù)據(jù)庫建設(shè)不斷完善,在學校平時的教育教學管理中累積了大量的數(shù)據(jù)。在這些海量的數(shù)據(jù)中,隱藏著大量有用的知識,如果利用好這些知識,將能夠?qū)W校的教育教學工作起到積極的指導(dǎo)作用。數(shù)據(jù)挖掘技術(shù)正是為了解決如何從海量數(shù)據(jù)中挖掘出有用的知識,因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到高校的教育教學中去是非常有必要的。

參考文獻:

【1】吉根林,帥克,孫志揮.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用.南京師大學報(自然科學版),2000,23(2):25-27

篇(4)

【中圖分類號】 C81 【文獻標識碼】 A 【文章編號】 1004-5937(2016)22-0024-02

第八屆國際數(shù)據(jù)挖掘與應(yīng)用統(tǒng)計研究會年會于2016年7月23―26日在油城大慶隆重召開。本屆會議由國際數(shù)據(jù)挖掘與應(yīng)用統(tǒng)計研究會主辦,東北石油大學、廈門大學數(shù)據(jù)挖掘研究中心、臺北醫(yī)學大學大數(shù)據(jù)研究中心、重慶允升科技大數(shù)據(jù)研究中心和重慶譽鋒宸數(shù)據(jù)信息技術(shù)有限公司聯(lián)合承辦。會議主題為“卓越數(shù)據(jù)共享統(tǒng)計的理論及應(yīng)用研究”。來自國內(nèi)外近百所高校、政府和企事業(yè)單位的200多位專家學者參會。

會議開幕式由東北石油大學數(shù)學與統(tǒng)計學院院長王玉學教授主持。東北石油大學副校長呂延防教授介紹了大慶市貌、學校環(huán)境和鐵人精神等,對本次會議的作用和意義進行了高度評價。教育部統(tǒng)計學類專業(yè)教學指導(dǎo)委員會主任、廈門大學曾五一教授從統(tǒng)計學科如何適應(yīng)大數(shù)據(jù)時代的發(fā)展角度,對會議的召開提出了進一步的期望。臺北醫(yī)學大學謝邦昌教授結(jié)合大慶石油,暢談了大數(shù)據(jù)的應(yīng)用前景。廈門大學朱建平教授從學會的起源到現(xiàn)狀,對學會未來的發(fā)展前景作了展望。

本屆大會除特邀報告外,入選論文52篇。按照論文所涉及的理論領(lǐng)域和方法應(yīng)用,將入選論文分為數(shù)據(jù)挖掘與大數(shù)據(jù)應(yīng)用、統(tǒng)計理論、統(tǒng)計方法應(yīng)用及實證分析等專題進行了分組交流討論。主要學術(shù)觀點綜述如下:

一、數(shù)據(jù)挖掘與大數(shù)據(jù)研究現(xiàn)狀及未來趨勢研究

謝邦昌教授在《大數(shù)據(jù)發(fā)展現(xiàn)況與未來發(fā)展趨勢》中首先闡述了何謂BIG DATA。當你連上臉書按贊打卡、上傳照片到網(wǎng)絡(luò)相簿與朋友分享、上班收發(fā)e-mail、用悠游卡買杯咖啡、通過ATM領(lǐng)錢、走進大賣場刷卡購物甚至是進家門開燈,都正在源源不斷地創(chuàng)造“海量數(shù)據(jù)”。這正是云端時代的新金脈。其次是BIG DATA的理論及其應(yīng)用。最重要的是如何對大數(shù)據(jù)進行分析,其基本方面如下:(1)數(shù)據(jù)可視化分析。決策者需要的不是數(shù)據(jù)本身及分析后的數(shù)值,而是龐大數(shù)據(jù)經(jīng)分析之后的結(jié)果、趨勢或現(xiàn)象,利用可視化效果易于被接受。(2)Data Mining算法。這是大數(shù)據(jù)分析的理論核心,而深入挖掘和快速處理是兩大重要課題。(3)預(yù)測性分析。如何找出特性、科學建模、預(yù)測未來。(4)語義引擎。非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來新的挑戰(zhàn),要提高語義引擎設(shè)計的智能化水平。(5)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理可保證分析結(jié)果的真實和有價值。最后,真正制約或者成為大數(shù)據(jù)發(fā)展和應(yīng)用的三個瓶頸:數(shù)據(jù)收集的合法性、產(chǎn)業(yè)鏈各個環(huán)節(jié)企業(yè)的均衡、大數(shù)據(jù)有效解讀。

國家統(tǒng)計局潘[博士在《我看當前對大數(shù)據(jù)的一些非議――兼議大數(shù)據(jù)應(yīng)用面臨的問題》中指出近幾年中國的大數(shù)據(jù)應(yīng)用取得了一定的進展,但面臨的諸多障礙依然存在,且不斷出現(xiàn)一些對大數(shù)據(jù)的非議之聲。這些非議有的有一定道理,有的則失之偏頗。潘[博士針對這些非議指出大數(shù)據(jù)是科學技術(shù)及社會生產(chǎn)力發(fā)展到特定階段的必然。盡管其發(fā)展進程中確實出現(xiàn)了失密、造假等嚴重問題,但這正說明必須正視大數(shù)據(jù)的撲面而來,并盡快制定各種應(yīng)對措施,抓住機遇,保存價值,著力解決出現(xiàn)的各種問題。最后,提出完善法律法規(guī)、明確牽頭單位、統(tǒng)籌各部門和規(guī)范標準等措施。

重慶工商大學李勇在《網(wǎng)絡(luò)輿情數(shù)據(jù)挖掘方法及其在意識形態(tài)傳播新特點中的應(yīng)用研究》中系統(tǒng)研究了當前網(wǎng)絡(luò)輿情數(shù)據(jù)挖掘的主要方法,并將這些方法應(yīng)用于網(wǎng)上意識形態(tài)傳播新特點的研究中。對互聯(lián)網(wǎng)出現(xiàn)前后意識形態(tài)傳播呈現(xiàn)的不同特點進行了對比分析,提煉出意識形態(tài)傳播在當前DT時代的本質(zhì)特征,結(jié)合主流意識形態(tài)提出相應(yīng)的有效傳播方式和防范措施。

東北石油大學辛華博士在《基于密度分布的聚類算法研究》中通過密度聚類方法DBSCAN二次聚類提高了聚類精度。湖北經(jīng)濟學院陳戰(zhàn)波、陶前功、黃小舟和王磊的《基于阿里云音樂平臺大數(shù)據(jù)的歌手流行趨勢預(yù)測及推薦研究》,山西財經(jīng)大學舒居安、趙麗琴、劉逸萌的《基于網(wǎng)絡(luò)輿情的居民購買力傾向指數(shù)構(gòu)造研究》和重慶工商大學李禹鋒的《基于網(wǎng)絡(luò)團購的重慶火鍋消費行為分析》等進行了大數(shù)據(jù)的應(yīng)用研究。光環(huán)國際楊恩博的《大數(shù)據(jù)人才發(fā)展與培養(yǎng)》、廣州泰迪智能科技趙云龍的《大數(shù)據(jù)形勢下數(shù)據(jù)科學人才培養(yǎng)初探》和劉彬的《大數(shù)據(jù)雙創(chuàng)實踐探索與服務(wù)體系》,從業(yè)界不同角度探索了大數(shù)據(jù)人才培養(yǎng)。

二、統(tǒng)計基本理論及應(yīng)用研究

臺灣淡江大學蔡宗儒教授在《Accelerated Degradation Tests》中,回顧了可靠度分析近期的發(fā)展,指出隨著制造技術(shù)的進步,產(chǎn)品可靠度大幅提升,進而提升了對產(chǎn)品可靠度分析的難度。而傳統(tǒng)設(shè)限方法和近代加速壽命測試法具有一定局限性,通過研究加速退化測試方法,指出如何針對加速退化數(shù)據(jù)進行統(tǒng)計推斷、評價其可靠度,如何在成本的考察下對加速退化測試實驗進行設(shè)計,以利后續(xù)的測試實驗參考。

北京大學房祥忠教授在《EM算法及其在置信推斷中的作用》中指出醫(yī)學或產(chǎn)品試驗費用昂貴等小樣本情況,其精確置信推斷尤為重要;Buehler置信限在多維參數(shù)或刪失數(shù)據(jù)時,難以計算,并將EM算法用于求精確置信限,給出了可靠性領(lǐng)域中的實證。

重慶工商大學李勇在《灰色統(tǒng)計基本理論及其應(yīng)用》中系統(tǒng)研究了灰數(shù)的統(tǒng)計學基本理論和方法。他從隨機樣本產(chǎn)生灰色估計量和直接從灰色數(shù)據(jù)開始,構(gòu)建了一套從數(shù)理統(tǒng)計逐步過渡到主要以灰色系統(tǒng)為研究對象的灰色統(tǒng)計方法,如灰數(shù)的區(qū)間估計、灰數(shù)的假設(shè)檢驗、灰數(shù)的相關(guān)分析和回歸分析等,并進行了實例分析。

哈爾濱工業(yè)大學張孟琦、田波平在《空間模型參數(shù)擬極大似然估計量的漸近性和實證》中提出了雙權(quán)重矩陣空間回歸模型參數(shù)的極大似然估計量,包括對數(shù)似然函數(shù)、集中似然函數(shù)和參數(shù)估計;證明了相合性和漸進分布性質(zhì),并實例進行了空間自相關(guān)檢驗和空間計量模型分析。

天津財經(jīng)大學楊貴軍、于洋、孟杰的《基于AIC的粗糙集擇優(yōu)方法》和楊貴軍、孫玲莉、董世杰的《三種線性回歸多重插補法的模擬研究對比分析》分別從粗糙集擇優(yōu)和回歸插補進行了研究。云南財經(jīng)大學張敏博士在《基于高層次結(jié)構(gòu)的多水平發(fā)展模型的統(tǒng)計建模及應(yīng)用》中研究了擬合高層次嵌套數(shù)據(jù)的多水平發(fā)展建模問題。集美大學紀的《模糊數(shù)據(jù)Jonckheere-Terpstra檢驗法及應(yīng)用》探討了模糊數(shù)據(jù)檢驗。廣東財經(jīng)大學的劉照德、林海明在《因子分析五個爭議的解答》中定量分析了因子分析的爭議問題。湖南大學周四軍、王佳星、羅丹在《基于門限面板模型的我國能源利用效率研究》中,基于柯布―道格拉斯生產(chǎn)函數(shù)理論構(gòu)建了我國能源利用效率門限面板模型,并進行了實證分析。

三、統(tǒng)計方法及實證研究

天津財經(jīng)大學楊貴軍、孟杰、鄒文慧在《基于模型平均的中國總和生育率估計》中指出目前國內(nèi)學者對中國總和生育率的估計尚未形成一致性的結(jié)論,缺少高質(zhì)量的數(shù)據(jù)源以及不完善的估計方法是影響總和生育率估計的主要問題;提出使用社會和經(jīng)濟等“人口系統(tǒng)”外部數(shù)據(jù),引入當前統(tǒng)計學和計量經(jīng)濟學前沿的模型平均方法對中國總和生育率進行估計。

華僑大學項后軍和浙江財經(jīng)大學何康在《自貿(mào)區(qū)的影響與資本流動――以上海為例的“自然實驗”估計》中,從自然實驗角度考察了樣本期內(nèi)上海自貿(mào)區(qū)的設(shè)立對上海地區(qū)資本流動的影響。得出:基于雙重差分模型估計的自貿(mào)區(qū)對上海資本流動的影響顯著;基于改進后合成控制法得到的“合成上?!睂ι虾TO(shè)立自貿(mào)區(qū)之前的模擬程度更高;基于安慰劑檢驗,證實了自貿(mào)區(qū)政策的有效性。

湖南大學晏艷陽、鄧嘉宜、文丹艷在《鄰里效應(yīng)與居民政治信任――基于中國家庭追蹤調(diào)查(CFPS)的證據(jù)》中,指出近年來居民對政府的信任危機頻發(fā),矛盾不斷出現(xiàn),嚴重制約著政府的行政效率;基于中國家庭追蹤調(diào)查(CFPS)截面數(shù)據(jù),建立回歸模型進行實證分析,證實了其他信息獲取渠道與社會互動之間具有相互替代的關(guān)系,有效解決了關(guān)聯(lián)效應(yīng)和反射性問題對鄰里效應(yīng)估計帶來的影響。

篇(5)

1 科學數(shù)據(jù)開放共享中的出版商

1.1 科學數(shù)據(jù)開放共享

在科學研究過程中,有不同的利益相關(guān)者參與其中。這些利益相關(guān)者類別多樣,性質(zhì)各異,共同形成科學研究的生態(tài)系統(tǒng)。根據(jù)各利益相關(guān)者的職能,圍繞研究人員,將這一系統(tǒng)進行分類研究,確定出4個利益相關(guān)者群體,即資助者、數(shù)據(jù)管理者、研究機構(gòu)與出版商作為關(guān)鍵參與者,以促進和實現(xiàn)科學研究數(shù)據(jù)的開放共享。

在這一系統(tǒng)中,每類利益相關(guān)者都有各自不同的職能、驅(qū)動力及利益點,但總體利益與動機相同,即促進科學的進步。利益相關(guān)者的利益與行為動機與各自職能連接在一起,形成了科學研究系統(tǒng)的邊界。該系統(tǒng)本質(zhì)上受到外部和內(nèi)部因素的雙重影響:外部因素可能表現(xiàn)為政治、社會、經(jīng)濟、科學和文化體系等;內(nèi)部因素包括政治意愿、經(jīng)濟及學術(shù)競爭、技術(shù)基礎(chǔ)設(shè)施、法律、道德等因素。該系統(tǒng)的價值與動機是外部和內(nèi)部因素共同作用的結(jié)果,其中外部因素控制資源輸入到該系統(tǒng)中,內(nèi)部因素控制這些資源的可用性和分配。如圖1所示:

在此科學開放系統(tǒng)中,利益相關(guān)者群體職能眾多并偶有重疊,總體上各利益相關(guān)方對研究數(shù)據(jù)的開放獲取的意義已達成共識,但各利益相關(guān)方對實現(xiàn)開放研究數(shù)據(jù)的方式的認識并不一致。本研究主要探討在推動科學數(shù)據(jù)開放共享中,出版商數(shù)據(jù)政策的現(xiàn)狀、問題,并構(gòu)建相應(yīng)模型,提出相應(yīng)建議。

1.2 出版商在科學數(shù)據(jù)開放共享系統(tǒng)中的目標

在促進研究數(shù)據(jù)開放共享方面,各利益相關(guān)方發(fā)揮不同的作用。出版商通過期刊向作者提供數(shù)據(jù)共享政策,在數(shù)據(jù)開放中發(fā)揮著重要作用。研究出版商的數(shù)據(jù)政策,是因為這是在研究過程中將數(shù)據(jù)政策與研究人員密切關(guān)聯(lián)起來的點,為研究成果,研究人員有動力、有可能遵守數(shù)據(jù)政策。同時,研究發(fā)現(xiàn),雖然包括出資者和研究機構(gòu)都可能有適用于研究人員的政策,但遵守這些政策的研究人員的比例還很低。研究人員沒有遵守數(shù)據(jù)政策的直接動力;此外研究人員在需要進行數(shù)據(jù)存檔時,可能也沒有合適的機構(gòu)知識庫可以選擇。出版商提出的數(shù)據(jù)政策,是在研究人員完成研究過程后發(fā)表研究成果前,研究人員有可能、有動力遵守出版商的數(shù)據(jù)政策。

1.2.1 科學數(shù)據(jù)開放共享的價值

科學的思想與科學的證據(jù)互相佐證,研究數(shù)據(jù)和科學實踐之間的聯(lián)系是不言自明的,因此,推動開放獲取研究數(shù)據(jù),與促進科學嚴謹?shù)哪繕讼嘁恢?。更大程度地共享與獲取數(shù)據(jù),能加強科學的基礎(chǔ)價值,即允許科學研究有效地自我校正,以便二次分析、檢驗、質(zhì)疑或改進原有成果[3]。此外,開放獲取政策通過減少重復(fù)工作,最大限度地減少研究人員用在搜索信息和數(shù)據(jù)方面的精力,因而改善了他們的工作條件。

JISC以英國高等教育和研究機構(gòu)為例,指出研究數(shù)據(jù)的監(jiān)護與開放共享具有如下利益[4]: ①研究人員能夠更廣泛地獲得數(shù)據(jù),從而促進更多的跨部門的合作,研究人員在行業(yè)、政府和非政府組織內(nèi)有可能獲得大量的教育和培訓(xùn)機會。數(shù)據(jù)的開放共享有助于實現(xiàn)數(shù)據(jù)使用和重用,降低數(shù)據(jù)的收集和復(fù)制成本,分擔數(shù)據(jù)收集的直接和間接成本(如避免調(diào)查疲勞,從而提高響應(yīng)率等),創(chuàng)造出在數(shù)據(jù)收集時未曾預(yù)想到的新的利用方式,進行數(shù)據(jù)挖掘等。②在項目申請撥款和評估階段、出版和研究評估階段,更容易發(fā)現(xiàn)欺詐和抄襲,更容易進行評估和同行審查。因此將有機會創(chuàng)造更加完整和透明的科學記錄。③通過將研究人員、知識庫、資助者與有價值的資源相鏈接,從而有更多的機會提高研究的可見度。

科學研究系統(tǒng)中的各個利益相關(guān)者群體認識到走向開放數(shù)據(jù)的利益,認同將數(shù)據(jù)的開放共享置于戰(zhàn)略高度進行考慮??茖W表現(xiàn)為知識積累的過程,數(shù)據(jù)在促進早期工作中起著重要作用。開放獲取研究數(shù)據(jù),通過避免重復(fù)勞動,促進協(xié)作,有助于顯著加快這一科學過程,從整體上使科學成為更加透明的進程,實現(xiàn)推動公眾參與,激勵創(chuàng)新和改革公共服務(wù)的宗旨[5]。

1.2.2 基本情況

出版商作為利益相關(guān)者,越來越關(guān)注數(shù)據(jù)密集型研究,認同開放獲取研究數(shù)據(jù)的意義。很多出版商認同布魯塞爾宣言,即“所有的研究者應(yīng)能自由地獲取原始研究數(shù)據(jù)。出版商鼓勵公開公布原始研究數(shù)據(jù)結(jié)果,將相關(guān)的數(shù)據(jù)集及子數(shù)據(jù)集與論文共同提交給期刊,應(yīng)盡可能讓其他研究人員自由獲取”[6]。很多出版商的數(shù)據(jù)政策為強制性政策,要求作者將支持出版物的研究數(shù)據(jù)存儲在經(jīng)認證的知識庫中,實現(xiàn)開放獲取。研究表明,如果期刊具有強制性數(shù)據(jù)政策,并且有可獲取數(shù)據(jù)的聲明,那么在線找到該數(shù)據(jù)的可能性,幾乎是沒有類似政策的期刊的1 000倍[7]。

盡管目前出版商已開始重視出版物的開放獲取,將開放獲取作為一種出版的商業(yè)模式,不過出版商參與研究數(shù)據(jù)的出版,特別是開放獲取研究數(shù)據(jù),目前尚未形成規(guī)模。出版商關(guān)注研究數(shù)據(jù)及其開放,重要原因在于數(shù)據(jù)為出版商的主要產(chǎn)品即出版物增加了價值,數(shù)據(jù)有助于驗證研究成果,從而增強了所發(fā)表研究成果的可信性,而可信度對于研究具有重要意義[2]。此外,資助機構(gòu)的政策要求公開獲取研究數(shù)據(jù),實質(zhì)上向出版商施加了壓力,出版商需要參與到研究數(shù)據(jù)開放獲取中,幫助作者和研究機構(gòu)符合出資人的要求。現(xiàn)在,領(lǐng)先發(fā)展的出版商開始與其他利益相關(guān)方合作,試圖挖掘研究數(shù)據(jù)的潛能,形成以數(shù)據(jù)為基礎(chǔ)的新產(chǎn)品和服務(wù),對研究數(shù)據(jù)進行同行評議,開展提高數(shù)據(jù)質(zhì)量的其他服務(wù)。

2 出版商主要數(shù)據(jù)管理政策

本研究根據(jù)STM的年度報告[8],確定出以下出版商為主要分析對象(見表1)。這十大出版商所出版期刊占到2014年所有出版期刊的45.2%,另外本研究將開放獲取出版商,科學公共圖書館(PLoS)、生物醫(yī)學中心(BioMed Central)的數(shù)據(jù)開放政策考慮在內(nèi)。

2.1 出版商數(shù)據(jù)政策現(xiàn)狀

2.1.1 將開放獲取作為默認情況

出版商將數(shù)據(jù)的開放獲取作為訂立政策的基礎(chǔ),如PLOS研究數(shù)據(jù)開放獲取強制性政策[9],指出除了極少數(shù)例外情況,支持PLOS出版物的所有研究數(shù)據(jù)都必須開放獲取。作者在向PLOS提交稿件時,要同時提交數(shù)據(jù)可用性聲明,在聲明中表明遵守PLOS的政策規(guī)定,在手稿成功提交后,數(shù)據(jù)作為最終手稿的部分內(nèi)容。PLOS要求作者將數(shù)據(jù)存儲于推薦的經(jīng)認證的數(shù)據(jù)中心或知識庫。小數(shù)據(jù)集可與稿件一并上傳。PLOS的編輯和投稿指南,向研究人員提供指導(dǎo),協(xié)助研究人員遵守期刊開放數(shù)據(jù)政策。在限制數(shù)據(jù)獲取的情況下,PLOS有權(quán)修正說明,聯(lián)系作者的機構(gòu)或資助者,甚至撤銷出版。

2.1.2 新的出版形式的出現(xiàn)

出版界越來越關(guān)注開放數(shù)據(jù),產(chǎn)生了一種新型出版產(chǎn)品,即數(shù)據(jù)期刊。數(shù)據(jù)期刊的出現(xiàn),與數(shù)據(jù)可以單獨緊密相關(guān)。數(shù)據(jù)的單獨可以確保數(shù)據(jù)作為科學記錄的基本組成部分,以可理解的形式向科學界提供。數(shù)據(jù)期刊是同行評議的開放獲取平臺,用于、分享和傳播各學科的數(shù)據(jù)。發(fā)表的數(shù)據(jù)論文包含數(shù)據(jù)集的具體相關(guān)信息,如收集、處理方式等。發(fā)表的數(shù)據(jù)論文與認可的知識庫互相關(guān)聯(lián),數(shù)據(jù)論文引用存儲于知識庫或數(shù)據(jù)中心中的數(shù)據(jù)集。正如澳大利亞國家數(shù)據(jù)服務(wù)中心(ANDS)在其數(shù)據(jù)期刊指南中所指出的,“從根本上說,數(shù)據(jù)期刊尋求促進科學認證和再利用,提高科學方法和結(jié)果的透明度,支持良好的數(shù)據(jù)管理方法,并為數(shù)據(jù)集提供一個可訪問的、永久的、可解析的路徑”。ANDS指出,數(shù)據(jù)論文的出版過程包括對數(shù)據(jù)集的同行評議,最大限度地提高了數(shù)據(jù)再利用的機會,并為研究人員提供了學術(shù)認可的可能性[10]。

2.1.3 同行評審

對研究數(shù)據(jù)與數(shù)據(jù)出版物開放獲取的關(guān)注,彰顯了研究數(shù)據(jù)的科學質(zhì)量及研究數(shù)據(jù)同行評審的重要意義。在此背景下,一些出版商將同行評議的范圍擴大到包括數(shù)據(jù)在內(nèi)的同行評審。M. S. Mayernik等2014年進行了有關(guān)“數(shù)據(jù)同行評審”的研究,提出因為出版物或資源類型有所不同,進行同行評審的方式也必須有所變化。研究者對幾種類型的評審資源進行了區(qū)分,包括在傳統(tǒng)科學論文中分析的數(shù)據(jù),在傳統(tǒng)科學期刊上的數(shù)據(jù)文章,以及通過數(shù)據(jù)期刊的開放獲取知識庫與數(shù)據(jù)集。M. S. Mayernik等針對數(shù)據(jù)的同行評審、數(shù)據(jù)的質(zhì)量保證過程確定了一些共同因素,包括:可通過數(shù)據(jù)中心或知識庫獲取數(shù)據(jù)集;數(shù)據(jù)集有足夠的信息以備評審;期刊有明確的方針指明審核的要點,指導(dǎo)評審者進行數(shù)據(jù)審查等[11]。

開放考古學雜志(JOAD[12-13])對所有提交的數(shù)據(jù)論文采用同行評審程序,評審內(nèi)容包括論文的內(nèi)容與存儲的數(shù)據(jù)。論文的內(nèi)容指與數(shù)據(jù)集的建立和重用相關(guān)的信息,以及對數(shù)據(jù)集的描述。存儲的數(shù)據(jù)指以可持續(xù)性模式提交到存儲庫的數(shù)據(jù),包括其許可方式。

2.1.4 數(shù)據(jù)引用

除對數(shù)據(jù)進行同行評審?fù)?,出版商還逐步引入數(shù)據(jù)引用政策,以促進研究數(shù)據(jù)的標準化使用。研究數(shù)據(jù)對研究過程具有重要價值與意義,為擴大高質(zhì)量研究數(shù)據(jù)的傳播,形成數(shù)據(jù)利用的規(guī)范方式,F(xiàn)ORCE11[14]制定了數(shù)據(jù)引用的主要原則。FORCE11的引用原則的前提是數(shù)據(jù)引用需要實現(xiàn)人類和機器均可讀。該數(shù)據(jù)引用原則可能并不全面,主要目的是鼓勵各學科制定體現(xiàn)自身特點的引用方式。

FORCE11原則包括:說明數(shù)據(jù)引用的重要性;通過數(shù)據(jù)引用促進學術(shù)信用;數(shù)據(jù)引用要實現(xiàn)機器可操作性,包括全球永久唯一標識符;數(shù)據(jù)引用要促進對數(shù)據(jù)本身的獲??;數(shù)據(jù)引用應(yīng)該具有持久性;便于識別,易于獲取,可以驗證;具有互操作、靈活性等特點。

2.1.5 內(nèi)容發(fā)現(xiàn)和鏈接服務(wù)

出版商逐漸把發(fā)展方向轉(zhuǎn)移到內(nèi)容發(fā)現(xiàn)和鏈接服務(wù),專注于文本與數(shù)據(jù)挖掘(TDM)工具,以便能開發(fā)內(nèi)容,進而提供相關(guān)服務(wù)。出版商越來越關(guān)注數(shù)據(jù)挖掘是研究人員利用大型數(shù)據(jù)庫的內(nèi)容、數(shù)據(jù)和出版物的需求的直接結(jié)果。一份文本和數(shù)據(jù)挖掘?qū)<倚〗M的報告指出,TDM是一種重要技術(shù),可用于從指數(shù)級增長的數(shù)字數(shù)據(jù)中,分析和提取新的見解和知識[15]。該報告的結(jié)論是,因為研究人員的技能和技術(shù)不斷提升,所研究的數(shù)據(jù)集的復(fù)雜性、多樣性及規(guī)模不斷擴大,因此TDM有可能會更加重要。但對于利用文本與數(shù)據(jù)挖掘工具是否應(yīng)有所限制,目前仍有爭議。

2.2 期刊數(shù)據(jù)政策問題

2.2.1 數(shù)據(jù)格式與文件大小的差異

期刊要包括支持文章結(jié)果的所有數(shù)據(jù),往往是很難實現(xiàn)的。研究的方法不同,產(chǎn)生的數(shù)據(jù)也大不相同,數(shù)據(jù)的格式和文件大小差異巨大。定性研究生成的數(shù)據(jù),多以文本形式存在,例如實地觀察筆記,或采訪或報道的文字記錄等。定量研究生成的數(shù)據(jù),多以電子表格的形式保存。一項研究可能產(chǎn)生多種類型的數(shù)據(jù),而論文可能包括附加文本、數(shù)值數(shù)據(jù)集和數(shù)字圖像,這些都可能增加論文的大小。因此出版商表現(xiàn)出對集成到每篇論文中的數(shù)據(jù)集大小的關(guān)注。某些出版商開始嘗試出版在線期刊文章,以包括多種數(shù)據(jù),例如愛思唯爾的有關(guān)未來的文章的探索[16]。然而,并不是每一種期刊都有包括各種數(shù)據(jù)的能力。這就要求期刊的辦刊方針應(yīng)清楚說明,作為論文組成部分的數(shù)據(jù),在何種程度上可以包括在論文中。

2.2.2 機構(gòu)知識庫的成本

為解決出版商服務(wù)器超載的問題,將期刊文章的重要數(shù)據(jù)鏈接到一個特定的機構(gòu)知識庫,可能是一個合理的選擇,但這將相關(guān)的長期運營成本轉(zhuǎn)嫁到了機構(gòu)中。但資助者目前的基金中并不包括這部分資金,而機構(gòu)可能也并不愿意在當前的管理費用中增加這種支出。這就使得在機構(gòu)知識庫中存儲科學數(shù)據(jù)的可持續(xù)性有待探討。

2.2.3 研究人員對數(shù)據(jù)開放的認識

許多研究人員并不知道相關(guān)的知識庫,為此期刊數(shù)據(jù)政策應(yīng)說明,數(shù)據(jù)是否應(yīng)該在認可的知識庫中存儲,是否要使用永久統(tǒng)一資源定位符(URL),是否要采用某種形式的數(shù)據(jù)引用。數(shù)據(jù)的時間也是一個需要關(guān)注的問題,研究人員并不關(guān)心在出版過程中的什么時候數(shù)據(jù)可被公開訪問,而是關(guān)心在研究過程中何時數(shù)據(jù)應(yīng)被公開訪問。研究論文并不是在研究結(jié)果全部產(chǎn)生后才會形成,而是在研究過程中逐步產(chǎn)生的。在的同時,是否適合研究數(shù)據(jù)取決于多種因素,諸如某些形式的數(shù)據(jù)有敏感性,要保護受試者等因素。

3 構(gòu)建期刊研究數(shù)據(jù)策略模型框架

3.1 出版商期刊政策的基本要求

有效的政策制定過程必然需要將注意力集中于數(shù)據(jù)共享過程中各利益相關(guān)方的意見,而目前的數(shù)字基礎(chǔ)設(shè)施在不斷變化,出版商、知識庫和系統(tǒng)之間,并沒有強有力的措施鼓勵共享數(shù)據(jù)。共同點包括:①出版商共享數(shù)據(jù)的方式差異很大;②在出版過程中,出版商對所接受的數(shù)據(jù)類型、數(shù)據(jù)應(yīng)存儲的地點、應(yīng)存儲的時間等說明,模糊不清;③研究人員普遍贊成共享數(shù)據(jù),但研究人員不知道該如何克服共享障礙;④研究人員認為出版商和期刊有關(guān)數(shù)據(jù)格式和存放地點等清晰的政策,將有益于研究;⑤出版商也認為在數(shù)據(jù)的關(guān)聯(lián)與嵌入方面存在障礙。

科學數(shù)據(jù)共享的許多問題,能夠在出版過程中通過期刊強有力而明確的政策加以解決。因此,本研究的目標是確定能推薦給期刊使用的政策模型。研究收集到的期刊政策信息,對材料進行分析后,歸納出目前主要的政策要求,如表2所示:

3.2 框架模型

基于以上所列出的觀察,形成基本的期刊研究數(shù)據(jù)政策的模型框架。由資助者和研究機構(gòu)作為一方,與出版商的另一方進行合作,發(fā)展數(shù)據(jù)政策。表3為所構(gòu)建的期刊研究數(shù)據(jù)策略模型框架。

3.3 實施方式

3.3.1 逐步制定出版物的支持性數(shù)據(jù)的強制性開放共享政策

出版商應(yīng)該支持期刊編輯制定研究數(shù)據(jù)的強制性政策,從而提高研究過程透明度,擴展研究數(shù)據(jù)的潛力。數(shù)據(jù)的編輯政策應(yīng)解決諸如文檔、元數(shù)據(jù)、數(shù)據(jù)出版格式、許可、引用等問題。編輯政策要求作者在文章提交過程和同行評議過程中,提交數(shù)據(jù)的可用性描述。對提交的文章不符合規(guī)定的情況,政策應(yīng)提出對應(yīng)的措施,如撤銷發(fā)表的文章。

3.3.2 與認證知識庫和數(shù)據(jù)中心協(xié)作,簡化數(shù)據(jù)提交流程

出版商可按照相關(guān)標準考查知識庫與數(shù)據(jù)中心的可信度,與符合數(shù)據(jù)認證標準的數(shù)據(jù)中心與知識庫協(xié)作。類似的知識庫或數(shù)據(jù)中心可以是主題明確的學科知識庫,也可以是機構(gòu)知識庫或綜合知識庫。二者的合作應(yīng)該會產(chǎn)生積極影響,為研究人員和研究機構(gòu)提供高品質(zhì)的產(chǎn)品和服務(wù),服務(wù)具有可操作性、技術(shù)上無縫的特點,從而實現(xiàn)以開放格式傳播和保存高質(zhì)量的學術(shù)產(chǎn)品和研究數(shù)據(jù)。對于沒有公認的數(shù)據(jù)中心或知識庫的學科,出版商對研究人員提供指導(dǎo)和幫助,提供適合存儲與獲取的機構(gòu)知識庫建議,或提供商業(yè)數(shù)據(jù)服務(wù)。在這方面,出版商的角色應(yīng)該是更多地促使學術(shù)團體建立資源庫評估準則,從而幫助研究人員選擇合適的存儲庫。當學術(shù)界建立起知識庫的認可標準,出版商就可以通過期刊政策執(zhí)行這些標準。

3.3.3 數(shù)據(jù)作為一流學術(shù)成果,接受同行評議

出版商的主要職責之一是確保出版物的高質(zhì)量,而研究數(shù)據(jù)同行評審制度的建立,有助于提升出版產(chǎn)品的品質(zhì)。同行評審過程,應(yīng)詳細說明評審的標準,要評估研究數(shù)據(jù)的技術(shù)與質(zhì)量問題,技術(shù)方面如考量數(shù)據(jù)集的完整性和一致性,收集數(shù)據(jù)的標準,使用的軟件等;研究數(shù)據(jù)的科學質(zhì)量則由研究團體通過出版前與出版后的同行評審進行評估。同行評審流程中,出版商也應(yīng)該探索對評審者的激勵方式,包括支付酬金,邀請編寫特稿,加入編輯委員會,甚至聘用一些專家進行內(nèi)容評審。

3.3.4 發(fā)展有關(guān)研究數(shù)據(jù)引用的策略

研究數(shù)據(jù)通過傳統(tǒng)的出版過程傳播,為實現(xiàn)數(shù)據(jù)的長期可重用,需建立并使用數(shù)據(jù)的引用標準。在這方面,出版商應(yīng)要求出版物及相關(guān)的數(shù)據(jù)可引用,并為數(shù)據(jù)的引用提供明確指導(dǎo)。在說明數(shù)據(jù)引用時,出版商可參照一些已有的實踐,如Force11[14]的原則,參與DataCite[17],加入到研究界和編輯討論的過程中。數(shù)據(jù)引用應(yīng)包括DOI,以及使用許可信息,如創(chuàng)作共用許可,數(shù)據(jù)的引用方式最好是機器可操作的,可讓用戶知道可以如何處理研究數(shù)據(jù)。

3.3.5 建立許可政策鼓勵進行文本數(shù)據(jù)挖掘

出版商的編輯政策應(yīng)以清晰的方式,說明研究數(shù)據(jù)的與獲取方式,如默認或建議開放獲取等??紤]到文本數(shù)據(jù)挖掘工具可帶來顯著經(jīng)濟效益,鼓勵出版商調(diào)整策略,允許研究人員在研究中使用這種技術(shù)。

篇(6)

二、數(shù)據(jù)驅(qū)動的高校教育管理智能平臺架構(gòu)

在海量教育數(shù)據(jù)亟待有效利用的驅(qū)動下,為提高高校管理效益,將商業(yè)智能技術(shù)應(yīng)用到高校教育管理中,對高校產(chǎn)生的大量數(shù)據(jù)用數(shù)據(jù)挖掘等商業(yè)智能技術(shù)進行分析研究與處理,可以幫助高校決策者做出對學校發(fā)展更為有利的科學決策。其關(guān)鍵是建立綜合層面上的、能反映高校整體教育教學管理的信息集成系統(tǒng)平臺(下文簡稱高校BI系統(tǒng)平臺)。高校BI系統(tǒng)平臺體系架構(gòu)由數(shù)據(jù)源、數(shù)據(jù)存儲與管理層、數(shù)據(jù)分析層和用戶接口層組成,如圖1所示。

(一)數(shù)據(jù)源

數(shù)據(jù)源是整個系統(tǒng)的基礎(chǔ),包括高校各類業(yè)務(wù)管理信息系統(tǒng)的內(nèi)部數(shù)據(jù)和其他外部數(shù)據(jù)。內(nèi)部數(shù)據(jù)包括存放于操作型數(shù)據(jù)庫中的各種業(yè)務(wù)數(shù)據(jù)和辦公自動化系統(tǒng)包含的各類文檔數(shù)據(jù),如學校財務(wù)處、人事處、教務(wù)處、科研處、設(shè)備處等部門數(shù)據(jù)庫中業(yè)務(wù)數(shù)據(jù);外部信息包括各類教育信息、外部統(tǒng)計和調(diào)研數(shù)據(jù)及文檔等。

(二)數(shù)據(jù)存儲與管理

數(shù)據(jù)存儲與管理層是整個系統(tǒng)的核心,包括ETL管理工具、公共數(shù)據(jù)集、元數(shù)據(jù)、數(shù)據(jù)倉庫和數(shù)據(jù)集市。高校BI系統(tǒng)平臺建設(shè)采用數(shù)據(jù)驅(qū)動設(shè)計方法,從學校原有的各個部門的業(yè)務(wù)處理系統(tǒng)和外部數(shù)據(jù)源中經(jīng)過ETL提取數(shù)據(jù),并根據(jù)常見的分析和統(tǒng)計主題,建設(shè)校級數(shù)據(jù)倉庫以及人才培養(yǎng)、師資隊伍、科學研究、辦學資源、交流合作等主題的數(shù)據(jù)集市。

(三)數(shù)據(jù)查詢與分析

高校決策者常常希望從不同的角度審視教育數(shù)據(jù),比如從時間、區(qū)域、學科、教學或科研成果、課程建設(shè)、學生層次、交流合作、辦學資源等維度全面了解學校的教育質(zhì)量和狀態(tài)。高校BI系統(tǒng)平臺的數(shù)據(jù)分析層利用商業(yè)智能技術(shù)為高校管理主要提供固定報表、即席查詢、統(tǒng)計分析、多維分析、預(yù)警功能、預(yù)測分析、數(shù)據(jù)挖掘建模分析及優(yōu)化分析等,根據(jù)學?,F(xiàn)有學生、教師、資源、科研和人才培養(yǎng)等狀況,有助于高校決策者全面地對學校資源配置進行調(diào)控、對學校整體辦學信息的內(nèi)部結(jié)構(gòu)進行調(diào)整等,做出對學校發(fā)展更為有利的科學決策。

(四)用戶接口

用戶接口層根據(jù)高校用戶訪問需求和角色訪問授權(quán)機制,提供強大的多用戶數(shù)據(jù)查詢操作,并以儀表盤或表格、直方圖、餅圖等直觀方式將查詢結(jié)果或決策信息呈現(xiàn)給用戶。

三、應(yīng)用案例

下面以高校BI系統(tǒng)平臺中的調(diào)研數(shù)據(jù)為商業(yè)智能技術(shù)應(yīng)用案例,利用回歸方法對大學生學習成果進行數(shù)據(jù)挖掘分析。

(一)數(shù)據(jù)來源

案例分析的數(shù)據(jù)來源于高校BI系統(tǒng)平臺中“中山大學學生學習狀況調(diào)查”項目于2012在中山大學全校范圍內(nèi)開展的在線調(diào)研數(shù)據(jù)。[13]調(diào)查覆蓋全校36個學院(系),調(diào)查總體約為3.3萬名本科生。讓學生在無壓力的情況下答題,共回收問卷7051份,回收率約為21.2%,與國際上通用的問卷回收率相當。案例分析聚焦于本科樣本,全部回收的問卷根據(jù)答題時長、問卷質(zhì)量標準等原則,篩選出有效問卷數(shù)據(jù)6673份,有效率為94.6%。本研究從學生學習經(jīng)歷角度,在“生源-學習-成果”的邏輯框架中,考察分析學校因素和學生因素對于學生學習成果的影響機制。調(diào)查把學生學習經(jīng)歷和成果分解為生源情況、學校學習資源供給、學生與學校的融合、學生學習投入、學生成果、學校成果6大維度,各維度下題目的內(nèi)部一致性均達到0.9以上,具有較高的信度。

(二)數(shù)據(jù)分析

逐步回歸提供了一種識別與學生學習成果相關(guān)的具體經(jīng)歷的方法,對于學生學習狀況調(diào)查中的227項進行相似項合并,用向前和向后逐步回歸確定與學習成果相關(guān)的項目,對殘差圖和診斷法的徹底審查,最后確定17個獨立變量出現(xiàn)在多元回歸模型中(如表2所示),其中,相關(guān)系數(shù)R為0.994,校正判定系數(shù)R2為0.988,因變量變化中有98.8%左右的信息可以由預(yù)測變量解釋,說明模型的擬合優(yōu)度較好;Durbin-Watson為1.937,接近最佳理想值,如表1所示。表2顯示的是回歸系數(shù)的相關(guān)統(tǒng)計量,可以看出,這17個獨立變量的顯著性概率Sig.都小于0.05,說明其系數(shù)顯著不為0,這17個變量均與學生學習成果顯著相關(guān)。分析表2中的數(shù)據(jù)可以看出,學生學習經(jīng)歷中的學校學習資源提供、學生學習投入和校園文化及學校成果等四大維度的17個變量均為影響學生學習成果的重要預(yù)測變量,包括課程作業(yè)評價、專業(yè)學習經(jīng)歷評價、學術(shù)規(guī)范指導(dǎo)、平等文化、多元能力的培養(yǎng)氛圍等學校因素變量,以及朋輩交流情況、自主學習情況、活動參與情況、課外閱讀情況、論文寫作情況、討論關(guān)注的內(nèi)容情況、師生交流、課業(yè)活動及個人閑暇活動時間分配等學生因素變量。同時,在校經(jīng)歷滿意度、綜合滿意度和能力培養(yǎng)滿意度等融合學校因素和學生因素的學校成果也對學生學習成果具有一定的影響。通過標準系數(shù)可以看出,朋輩交流情況、自主學習情況和討論關(guān)注的內(nèi)容情況分別是第一、第二和第三重要的預(yù)測變量,而性別、年級、所在校區(qū)等人口學變量并未出現(xiàn)在該回歸分析模型中,對學生學習成果的影響不顯著。進一步分析朋輩交流情況和自主學習情況調(diào)查指標應(yīng)答概況,如表3所示,“有時”、“時常”或“頻繁”進行朋輩交流的比例為63.7%~97.7%,自主學習的比例為52.5%~92.9%,朋輩交流和自主學習的平均比例相當高(81.8%)?!坝袝r”、“時?!被颉邦l繁”地進行朋輩交流方面的主要比例情況為:“與家庭背景(社會、經(jīng)濟的)不同的同學交流”為97.7%、“與興趣不同的同學交流”為95.6%、“在與同學的談話中得到啟發(fā),改變自己的想法”為94.4%、“與世界觀、價值觀不同的同學交流”為93%、“與不同專業(yè)的同學交流”為92.6%、“同學與你談話后,表示受到了你的啟發(fā)”為90.8%?!坝袝r”、“時?!被颉邦l繁”地進行自主學習的主要比例情況為:“利用圖書館、網(wǎng)絡(luò)等資源豐富自己的學識”為92.9%、“根據(jù)課程安排,做課堂展示”為91.3%、“努力掌握對自己而言較難的課程內(nèi)容”為91.3%、“隨著學習經(jīng)歷的豐富不斷整合、梳理自己的知識系統(tǒng)”為88.4%,“因課程設(shè)置和教師的要求具有挑戰(zhàn)性而更加努力地學習”為85.9%。上述情形符合VincentTinto在研究大學生退學問題時提出的理論模型:學生取得較好的學習成果,依賴于他們在學習經(jīng)歷中能否將自身的經(jīng)驗和目標與學校系統(tǒng)內(nèi)部的學術(shù)系統(tǒng)和社交系統(tǒng)相融合。[10]學術(shù)系統(tǒng)代表學生個人的課業(yè)表現(xiàn)、智力發(fā)展、學業(yè)成就等綜合表現(xiàn),如表2中自主學習情況、活動參與情況、課外閱讀情況、論文寫作情況、討論關(guān)注的內(nèi)容情況及課業(yè)活動等屬于學術(shù)系統(tǒng)的范疇。社交系統(tǒng)代表學生在校內(nèi)的同伴關(guān)系、師生關(guān)系、社交行為等綜合表現(xiàn),如朋輩交流情況、師生交流及個人閑暇活動時間分配等屬于社交系統(tǒng)的范疇。學生在其學習經(jīng)歷中,有效地利用學習資源和校園文化氛圍、將學術(shù)系統(tǒng)和社交系統(tǒng)進行整合,可以從學業(yè)和人際關(guān)系上自我提升,從而提高學習成果。

篇(7)

2.1Web數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的和隨機的數(shù)據(jù)中提取人們事先不知道的、潛在有用的信息和知識的非平凡過程。

Web數(shù)據(jù)挖掘(WebMining)是從Web文檔和Web活動中抽取感興趣的、潛在的有用模式和隱藏的信息,是數(shù)據(jù)庫、數(shù)據(jù)挖掘、人工智能、信息檢索、自然語言理解等技術(shù)的綜合應(yīng)用,是在一定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)現(xiàn)有用的知識來幫助人們從WWW中提取知識。Web數(shù)據(jù)挖掘可以分為Web內(nèi)容挖掘(WebContentMining)、Web結(jié)構(gòu)挖掘(WebStructureMining)、Web使用記錄挖掘(WebUsageMining)三類。Web內(nèi)容挖掘是指從文檔內(nèi)容或其描述中抽取知識的過程,又可以分為基于文本的挖掘和基于多媒體的挖掘兩種。Web文本挖掘可以對Web上大量文檔集合的內(nèi)容進行總結(jié)、分類、聚類、關(guān)聯(lián)分析等。Web結(jié)構(gòu)挖掘是指從Web組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。通過對Web結(jié)構(gòu)的挖掘,可以用來指導(dǎo)對頁面進行分類和聚類,找到權(quán)威頁面,從而提高檢索的性能,同時還可以用來指導(dǎo)網(wǎng)頁采集工作,提高采集效率。Web使用記錄挖掘是指從服務(wù)器端記錄的客戶訪問日志或從客戶的瀏覽信息中抽取感興趣的模式。

基于Web的數(shù)據(jù)挖掘技術(shù)的出現(xiàn)不僅為商家做出正確的商業(yè)決策提供了強有力的工具,也為商家更加深入地了解客戶需求信息和購物行為的特征提供了可能性。

2.2電子商務(wù)中Web數(shù)據(jù)挖掘的步驟

電子商務(wù)中Web數(shù)據(jù)挖掘的步驟如下:

①明確數(shù)據(jù)挖掘的對象—業(yè)務(wù)對象,確定商業(yè)應(yīng)用主題,不能盲目地進行挖掘;

②將與業(yè)務(wù)對象的各類原始數(shù)據(jù)收集起來作為挖掘的數(shù)據(jù)源泉;

③對收集的數(shù)據(jù)進行預(yù)處理,一般包括數(shù)據(jù)凈化、用戶識別、會話識別、路徑補充、事務(wù)識別和格式化等階段,以提高挖掘效率,剔除無用、無關(guān)信息并對信息進行必要的整理。

④根據(jù)需要解決的問題建立合適的數(shù)據(jù)挖掘模型,然后利用已知數(shù)據(jù)對模型進行訓(xùn)練和測試,并應(yīng)用該模型得到挖掘結(jié)果;

⑤利用可視化技術(shù),驗證、解釋挖掘的結(jié)果,并據(jù)此做出決策或豐富知識,即進行模式分析與應(yīng)用。

在整個Web數(shù)據(jù)挖掘的過程中,被明確的業(yè)務(wù)對象是挖掘過程的基礎(chǔ),它驅(qū)動整個Web數(shù)據(jù)挖掘的全過程;同時,也是檢驗挖掘結(jié)果和引導(dǎo)分析人員完成挖掘的依據(jù)。

2.3電子商務(wù)中Web數(shù)據(jù)挖掘的數(shù)據(jù)源

在電子商務(wù)中,可以用來作為數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較大,而且類型眾多,總結(jié)起來有以下幾種類型的數(shù)據(jù)可用于Web數(shù)據(jù)挖掘技術(shù)產(chǎn)生各種知識模式。

①服務(wù)器數(shù)據(jù)??蛻粼L問站點時會在Web服務(wù)器上留下相應(yīng)的日志數(shù)據(jù),這些日志數(shù)據(jù)通常以文本文件的形式存儲在服務(wù)器上。一般包括serverslogs、errorlogs、cookieslogs等。

②查詢數(shù)據(jù)。它是電子商務(wù)站點在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。例如,對于再現(xiàn)存儲的客戶也許會搜索一些產(chǎn)品或某些廣告信息,這些查詢信息就是通過cookie或是登記信息連接到服務(wù)器的訪問日志上。

③在線市場數(shù)據(jù)。這類數(shù)據(jù)主要是傳統(tǒng)關(guān)系數(shù)據(jù)庫里存儲的有關(guān)電子商務(wù)站點信息、用戶購買信息、商品信息等數(shù)據(jù)。

④Web頁面。主要是指HTML和XML頁面的內(nèi)容,包括文本、圖片、語音、圖像等。

⑤Web頁面超級鏈接關(guān)系。主要是指頁面之間存在的超級鏈接關(guān)系,這也是一種重要的資源。

⑥客戶登記信息??蛻舻怯浶畔⑹侵缚蛻敉ㄟ^Web頁輸入的、要提交給服務(wù)器的相關(guān)用戶信息,這些信息通常是關(guān)于用戶的人口特征。在Web的數(shù)據(jù)挖掘中,客戶登記信息需要和訪問日志集成,以提高數(shù)據(jù)挖掘的準確度,使之能更進一步的了解客戶。

2.4Web數(shù)據(jù)挖掘能夠獲取的知識模式

運用Web數(shù)據(jù)挖掘技術(shù)能夠?qū)φ军c上的各種數(shù)據(jù)源進行挖掘,找到相關(guān)的一些知識模式,以指導(dǎo)站點人員更好地運作站點和向客戶提供更好的服務(wù)。一般運用Web數(shù)據(jù)挖掘可以在站點上挖掘出來的知識模式有以下幾個:

①路徑分析。它可以被用于判定在一個Web站點中最頻繁訪問的路徑。通過路徑分析,可以得到重要的頁面,可以改進頁面及網(wǎng)站結(jié)構(gòu)的設(shè)計。

②關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。在電子商務(wù)中關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可以找到客戶對網(wǎng)站上各種文件之間訪問的相互關(guān)系,可以找到用戶訪問的頁面與頁面之間的相關(guān)性和購買商品間的相關(guān)性。利用這些相關(guān)性,可以更好的組織站點的內(nèi)容,實施有效的市場策略,增加交叉銷售量,同時還可以減少用戶過濾信息的負擔。

③序列模式的發(fā)現(xiàn)。序列模式的發(fā)現(xiàn)就是在時間戳有序的事務(wù)集中,找到那些“一些項跟隨另一項”的內(nèi)部事務(wù)模式。它能夠便于進行電子商務(wù)的組織預(yù)測客戶的訪問模式,對客戶開展有針對性的廣告服務(wù)。通過系列模式的發(fā)現(xiàn),能夠在服務(wù)器方選擇有針對性地頁面,以滿足訪問者的特定要求。

④分類和預(yù)測。分類發(fā)現(xiàn)就是給出識別一個特殊群體的公共屬性的描述,這個描述可以用來分類新的項。分類的目的是通過構(gòu)造分類模型或分類器,把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個,以便用于預(yù)測;也就是利用歷史數(shù)據(jù)記錄自動推導(dǎo)出對給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進行預(yù)測,進行適合某一類客戶的商務(wù)活動。

⑤聚類分析。聚類分析可以從Web訪問信息數(shù)據(jù)中聚集出具有相似特性的那些客戶。在Web事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項能夠便于開發(fā)和執(zhí)行未來的市場策略。這種市場策略包括自動給一個特定的顧客聚類發(fā)送銷售郵件、為屬于某一個顧客聚類中的顧客推薦特定的商品等。對電子商務(wù)來說,客戶聚類可以對市場細分理論提供有力的支持。通過對聚類客戶特征的提取,電子商務(wù)網(wǎng)站可以為客戶提供個性化的服務(wù)。

⑥異常檢測。異常檢測是對分析對象的少數(shù)的、極端的特例的描述,以揭示內(nèi)在的原因,從而減小經(jīng)營的風險。異常檢測在電子商務(wù)中的應(yīng)用可以體現(xiàn)在信用卡欺詐甄別、發(fā)現(xiàn)異常客戶和網(wǎng)絡(luò)入侵檢測等方面。

Web數(shù)據(jù)挖掘的各項功能不是獨立存在的,而是在挖掘過程中互相聯(lián)系,發(fā)揮作用。

3Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用

3.1數(shù)據(jù)抽取方法在電子商務(wù)中的應(yīng)用

與傳統(tǒng)商務(wù)活動相比,電子商務(wù)具有更多的虛擬和不確定的因素:如客戶購買的心理、動機、能力、欲望等。Web數(shù)據(jù)挖掘要解決的問題就是如何從零散的無規(guī)則的網(wǎng)絡(luò)數(shù)據(jù)中找到有用的和有規(guī)則的數(shù)據(jù)和知識,基本方法之一就是進行數(shù)據(jù)抽取,以期對數(shù)據(jù)進行濃縮,給出它的緊湊描述,如方差值等統(tǒng)計值或用直方圖等圖形方式表示,從數(shù)據(jù)泛化的角度討論數(shù)據(jù)總結(jié),把最原始、基本的信息數(shù)據(jù)從低層次抽象到高層次,以便于企業(yè)決策。

3.2基于Web數(shù)據(jù)挖掘的智能化搜索引擎

電子商務(wù)企業(yè)在活動過程中面臨的問題之一是如何通過Internet全面、準確、及時地收集到企業(yè)內(nèi)、外部的環(huán)境信息,尤其是一些隱性的、關(guān)系到企業(yè)經(jīng)營成敗的關(guān)鍵信息,以提高競爭力。目前的搜索引擎存在著查準率低、返回無用信息多的問題,使企業(yè)無法得到優(yōu)質(zhì)的信息。鑒于此,將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于搜索引擎,使之成為智能搜索引擎,從而提高性能,滿足電子商務(wù)企業(yè)的需要。Web挖掘技術(shù)主要在以下幾個方面對搜索引擎有借鑒作用:文檔的自動分類、自動摘要的形成、檢索結(jié)果的聯(lián)機聚類和相關(guān)度排序及實現(xiàn)個性化的搜索引擎。經(jīng)過文檔的分類處理,可以對搜索結(jié)果進行分門別類,可以通過限制搜索范圍來使文本的查找更為容易,幫助用戶快速的對目標知識進行定位,從而提高用戶進行網(wǎng)上信息搜索的效率;自動摘要能夠解決大部分搜索引擎機械地截取文檔的前幾句和固定字數(shù)的摘要使信息反映不完整的缺陷,使用戶能較準確、快速、方便地了解檢索信息;通過對檢索結(jié)果的文檔集合進行聚類,可以使得與用戶檢索結(jié)果相關(guān)的文檔集中在一起,從而遠離那些不相關(guān)的文檔,將處理以后的信息以超鏈結(jié)構(gòu)組織的層次方式可視化地提供給用戶,由用戶選擇他所感興趣的那一簇,將大大縮小所需瀏覽的頁面數(shù)量;將Web使用挖掘中的個性化技術(shù)應(yīng)用在搜索引擎中,可以在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對象間的內(nèi)在特征,并以此為依據(jù)進行有目的的信息提取,使得搜索引擎可以按照用戶的興趣偏好擴充用戶搜索的關(guān)鍵詞,以使得檢索結(jié)果更接近用戶要求,或者根據(jù)用戶歷史瀏覽信息的分析獲得用戶興趣庫,調(diào)用個性化的搜索引擎可以提高用戶檢索的查全率與查準率。通過借鑒Web挖掘技術(shù)可以提高查準率與查全率,改善檢索結(jié)果的組織,從而使檢索效率得到改善。

3.3Web數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用

①客戶關(guān)系管理的核心

客戶關(guān)系管理(CustomerRelationshipManagement,簡稱CRM)的核心是通過客戶和他們行為的有效數(shù)據(jù)收集,發(fā)現(xiàn)潛在的市場和客戶,從而獲得更高的商業(yè)利潤,通過完善的客戶服務(wù)和深入的客戶分析來滿足客戶的需求,保證實現(xiàn)客戶的終生價值。可以說CRM能給傳統(tǒng)企業(yè)帶來在網(wǎng)絡(luò)經(jīng)濟時代謀取生存之道的管理制度和技術(shù)手段。它要求企業(yè)從“以產(chǎn)品為中心”的模式向“以客戶為中心”的模式轉(zhuǎn)移。

②Web數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用

Web數(shù)據(jù)挖掘能夠幫助企業(yè)確定客戶的特點,使企業(yè)能夠為客戶提供有針對性的服務(wù)。將Web數(shù)據(jù)挖掘用在電子商務(wù)CRM中主要體現(xiàn)在客戶的獲取和保持、價值客戶鑒別、客戶滿意度分析及改善站點結(jié)構(gòu)等幾方面。

通過Web數(shù)據(jù)挖掘,可以理解訪問者的動態(tài)行為,據(jù)此優(yōu)化電子商務(wù)網(wǎng)站的經(jīng)營模式。通過把所掌握的大量客戶分成不同的類,對不同類的客戶提供個性化服務(wù)來提高客戶的滿意度,從而保持老客戶;通過對新訪問者的網(wǎng)頁瀏覽記錄進行分析,就可以判斷出該訪問者是屬于哪一類客戶,是有利可圖的潛在客戶還是毫無價值的過客,達到區(qū)別對待、節(jié)省銷售成本、提高訪問者到購買者的轉(zhuǎn)化率的目的,從而挖掘潛在客戶;通過對具有相似瀏覽行為的客戶進行分組,提取組中客戶的共同特征,從而實現(xiàn)客戶的聚類,這可以幫助電子商務(wù)企業(yè)更好地了解客戶的興趣、消費習慣和消費傾向,預(yù)測他們的需求,有針對性地向他們推薦特定的商品并實現(xiàn)交叉銷售,可以提高交易成功率和交易量,提高營銷效果。

此外,站點的結(jié)構(gòu)和內(nèi)容是吸引客戶的關(guān)鍵。利用關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),針對不同客戶動態(tài)調(diào)整站點結(jié)構(gòu)和頁面內(nèi)容,把具有一定支持度和信任度的相關(guān)聯(lián)的物品放在一起以有助于銷售;通過路徑分析等技術(shù)可以判定出一類用戶對Web站點頻繁訪問的路徑,這些路徑反映這類用戶瀏覽站點頁面的順序和習慣,將客戶訪問的有關(guān)聯(lián)的文件實現(xiàn)直接鏈接,讓客戶容易地訪問到想要的頁面。這樣的網(wǎng)站會給客戶留下好印象,提高客戶忠誠度,吸引客戶,延長他們在網(wǎng)站上的駐留時間以及提高再次訪問的機率。

通過挖掘客戶的行為記錄和反饋情況,進一步優(yōu)化網(wǎng)站組織結(jié)構(gòu)和服務(wù)方式以提高網(wǎng)站的效率。通過Web數(shù)據(jù)挖掘,可以得到可靠的市場反饋信息,評測廣告的投資回報率,從而評估網(wǎng)絡(luò)營銷模式的成功與否;可以根據(jù)關(guān)心某產(chǎn)品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對性,提高廣告的投資回報率,降低公司的運營成本。③維護客戶的隱私權(quán)

維護客戶的隱私權(quán)是商家在商業(yè)運作過程中不能忽視的一個基本組成部分。因此,作為電子商務(wù)企業(yè),應(yīng)該盡量避免對單個客戶數(shù)據(jù)進行挖掘。企業(yè)管理客戶隱私權(quán)的保護應(yīng)該從技術(shù)和管理兩個方面來實現(xiàn):技術(shù)上,通常是采用加密標志符,并且盡量避免對單個客戶數(shù)據(jù)進行挖掘;管理上,很多電子商務(wù)企業(yè)現(xiàn)在已經(jīng)增設(shè)了首席隱私官(CPO,ChiefPrivacyOfficer)職位,隱私官將能在個人對隱私的需求和公司以合理手段使用隱私材料的權(quán)利之間,建立適當?shù)钠胶怅P(guān)系。這種平衡關(guān)系的大成,需要以長期的實踐和經(jīng)驗為基礎(chǔ)。除了電子商務(wù)企業(yè)以單獨的主體身份進行客戶隱私權(quán)保護的管理之外,行業(yè)自律也是保護客戶隱私權(quán)的一個行之有效的手段。目前,電子商務(wù)網(wǎng)站越來越傾向于通過行業(yè)自律的方式來樹立其在客戶心目中的形象,讓客戶放心地提交數(shù)據(jù)。

3.4Web數(shù)據(jù)挖掘在個性化服務(wù)推薦系統(tǒng)中的應(yīng)用

電子商務(wù)個性化服務(wù)推薦系統(tǒng)是向站點企業(yè)提供在電子商務(wù)中更好地運作CRM,建立良好客戶關(guān)系的一種解決方法,是“以客戶為中心”、“一對一”的行銷的堅實執(zhí)行者。

該系統(tǒng)主要是將數(shù)據(jù)挖掘的思想和方法應(yīng)用到Web服務(wù)器日志及Web數(shù)據(jù)庫等資源上,挖掘出客戶的訪問規(guī)律;然后將在線訪問客戶歸結(jié)到某一類中去,根據(jù)該類用戶的訪問規(guī)律進行Web頁面的推薦;并且系統(tǒng)還可以通過不斷地跟蹤用戶的當前訪問,實時調(diào)整推薦集,為用戶提供個性化的訪問。該系統(tǒng)由五大模塊組成:數(shù)據(jù)收集模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)存儲模塊、離線挖掘模塊和在線推薦模塊。其系統(tǒng)結(jié)構(gòu)模型如圖1所示:

圖1基于Web數(shù)據(jù)挖掘的個性化服務(wù)推薦系統(tǒng)結(jié)構(gòu)模型

數(shù)據(jù)收集模塊主要用于收集Web數(shù)據(jù)庫、使用日志等數(shù)據(jù),形成數(shù)據(jù)采集庫,為以后的挖掘做準備;數(shù)據(jù)預(yù)處理模塊主要是對所收集的數(shù)據(jù)進行預(yù)處理,數(shù)據(jù)預(yù)處理的質(zhì)量與挖掘的效率和結(jié)果緊密相關(guān);數(shù)據(jù)存儲模塊將預(yù)處理后的數(shù)據(jù)存入用戶事務(wù)庫;離線挖掘模塊中的挖掘引擎使用挖掘算法庫中的數(shù)據(jù)挖掘技術(shù)如統(tǒng)計分析、關(guān)聯(lián)規(guī)則、聚類分析、序列模式等,來發(fā)現(xiàn)用戶瀏覽模式,并通過模式分析對其進行分析與解釋,根據(jù)實際應(yīng)用,通過觀察和選擇,把發(fā)現(xiàn)的統(tǒng)計結(jié)果、規(guī)則和模型轉(zhuǎn)換為知識,經(jīng)過篩選后得到有用的模式用來指導(dǎo)實際的電子商務(wù)行為;在線推薦模塊在Web服務(wù)器前端設(shè)置了推薦引擎,它將用戶當前的瀏覽活動與瀏覽出的頁面推薦集結(jié)合起來考慮,生成相應(yīng)推薦集,然后在用戶最新請求的頁面上添加推薦集的頁面,再通過Web服務(wù)器傳遞到用戶端的瀏覽器,為用戶實現(xiàn)實時個性化服務(wù);同時將推薦結(jié)果送往網(wǎng)站管理中心,以便調(diào)整網(wǎng)站設(shè)計,優(yōu)化網(wǎng)站結(jié)構(gòu),提高網(wǎng)站效率。

總的來說,在個性化服務(wù)推薦系統(tǒng)中運用數(shù)據(jù)挖掘技術(shù)有兩個階段:第一個階段是學習階段,離線進行。第二個階段是模式的使用階段,在線進行。挖掘和在線推薦的特征獲取和規(guī)則生成是離線處理的,而當用戶訪問該網(wǎng)站時通過在線推薦引擎進行在線服務(wù)。離線模塊和在線模塊相互聯(lián)系,在線模塊主要是利用離線模塊提供的規(guī)則模型對在線用戶推薦(推薦引擎);離線模塊主要是利用在線模塊積累的數(shù)據(jù)運用系統(tǒng)推薦算法形成相應(yīng)的規(guī)則。挖掘算法和推薦策略可以根據(jù)不同類型站點的要求來具體選擇,挖掘結(jié)果和推薦集通過推薦引擎反饋給用戶。電子商務(wù)網(wǎng)站的客戶登錄網(wǎng)站以后,其訪問信息將會被記錄到服務(wù)器端。這些數(shù)據(jù)將在經(jīng)過預(yù)處理后,在專用的數(shù)據(jù)挖掘模塊中,通過具體的挖掘算法和推薦策略來進行模式識別和模式分析。用戶訪問信息也會傳到推薦引擎,推薦引擎根據(jù)客戶的會員標識,向挖掘模塊抽取對應(yīng)客戶的挖掘結(jié)果和推薦集,將其可視化地反饋給用戶,達到個性化服務(wù)的目的。

3.5基于Web的數(shù)據(jù)挖掘在商業(yè)信用評估中的應(yīng)用

發(fā)達的社會信用水平是發(fā)展電子商務(wù)的重要基礎(chǔ),通過Web數(shù)據(jù)挖掘?qū)φ军c數(shù)據(jù)統(tǒng)計和歷史記錄之間的差別,結(jié)果與期望值的偏離以及反常實例進行充分的分析,可以有效地防范投資和經(jīng)營風險。另外,通過數(shù)據(jù)挖掘技術(shù)對企業(yè)經(jīng)營進行跟蹤,開展企業(yè)的資產(chǎn)評估、利潤收益分析和發(fā)展?jié)摿︻A(yù)測,構(gòu)建完善的安全保障體系,實施網(wǎng)上全程監(jiān)控,監(jiān)督網(wǎng)上言論,維護企業(yè)信譽,強化網(wǎng)上交易和在線支付的安全管理,利用數(shù)據(jù)挖掘的信用評估模型,對交易歷史數(shù)據(jù)進行挖掘發(fā)現(xiàn)客戶的交易數(shù)據(jù)特征,建立客戶信譽度級別,有效地防范和化解信用風險,提高企業(yè)信用甄別與風險管理的水平和能力。

4結(jié)論

本文對Web挖掘技術(shù)進行了綜述,介紹了其在電子商務(wù)中的典型應(yīng)用。Web數(shù)據(jù)挖掘高度自動化地對電子商務(wù)中的大量信息進行分析和推理,從中挖掘出潛在的模式,預(yù)測客戶行為,幫助企業(yè)的決策者調(diào)整市場策略,減少風險,做出正確的決策。Web數(shù)據(jù)挖掘是近幾年來數(shù)據(jù)挖掘領(lǐng)域的探討熱點,利用它的技術(shù)知識將它運用到電子商務(wù),將會解決許多實際問題,具有豐富的學術(shù)價值。將Web數(shù)據(jù)挖掘技術(shù)和電子商務(wù)兩者有機結(jié)合,將會為企業(yè)更有效的確認目標市場,改進決策,獲得競爭優(yōu)勢提供幫助,有著很廣闊的應(yīng)用前景,使電子商務(wù)網(wǎng)站更具有競爭力,從而為企業(yè)帶來更多的效益。面向電子商務(wù)的Web數(shù)據(jù)挖掘能發(fā)現(xiàn)大量數(shù)據(jù)背后隱藏的知識,指導(dǎo)商家提高銷售額,改善企業(yè)客戶關(guān)系,提高網(wǎng)站運行效率,改進系統(tǒng)性能,具有良好的發(fā)展和應(yīng)用前景,必將得到越來越多的關(guān)注。

參考文獻:

[1]毛國君.數(shù)據(jù)挖掘原理與算法[M].清華大學出版社.2005(07).

[2]張冬青.數(shù)據(jù)挖掘在電子商務(wù)中應(yīng)用問題研究[J].現(xiàn)代情報.2005(09).

[3]李鳳慧.面向電子商務(wù)的Web數(shù)據(jù)挖據(jù)的研究[D].山東科技大學碩士學位論文.2004(06).

篇(8)

【中圖分類號】G40-057【文獻標識碼】A【論文編號】1009-8097(2015) 06-0089-07【DOI】10.3969/j.issn.1009-8097.2015.06.014

引言

2011年以來,在美國頂尖大學中迅速發(fā)展起來并迅速影響世界的MOOC(大規(guī)模開放在線課程)模式無疑給“在線學習”這一學習形式樹立了成功應(yīng)用的典范,該模式證明了只有當大學的課程、課堂教學、學生學習進程、學生體驗、師生互動過程等被完整、系統(tǒng)地在線實現(xiàn)…,特別是當輔導(dǎo)教師的存在以及相關(guān)系統(tǒng)指導(dǎo)活動實現(xiàn)時,在線學習才是有效的。這從一個側(cè)面說明,在線學習并不是純粹的學生自主學習,還需要充分發(fā)揮輔導(dǎo)教師的主導(dǎo)作用。

在線學習模式下,師生活動在時空上相對分離,盡管有同步教學活動發(fā)生,但更多時候是異步教學活動,因為異步教學更有助于滿足學習者的個性化學習需要。不同于課堂面授教學,輔導(dǎo)教師難以把握一門在線課程學習者學習開展情況的全貌。但是,通過在線學習平臺對學習過程的記錄,輔導(dǎo)教師了解課程的教學過程是可能的,而且基于學習過程記錄開展在線教學的反思以不斷改進在線教學這一做法也是必要的。一文獻探討

“教學反思”,顧名思義,反思對象就是教學過程,反思的基礎(chǔ)是對教學過程的忠實記錄。波斯納(Poser)將教師的成長發(fā)展與其對自己經(jīng)驗的反思結(jié)合起來,提出了一個教師成長的公式:經(jīng)驗+反思=成長。由此可見反思對教師成長以及專業(yè)發(fā)展的重要性。

教學反思的方法是多樣的。王映學、趙興奎指出教學反思的途徑主要有錄像反思、日記反思、從學習者角度反思、與同事及專家的交流中反思以及通過向?qū)W生征詢意見反思。張大均將教師成長的途徑從觀摩教學、微格教學、教學決策訓(xùn)練和教學反思幾個方面來說明。俞國良等則將教師的反思訓(xùn)練列為錄像反思法、對話反思法和教學反思法。從上述方法中可以看到,教學反思的基礎(chǔ)是對教學過程的忠實記錄。在“日記反思法”中,第一步就是對教學中包含問題的教學事件進行詳細、忠實的描述。在“從學習者角度反思”中,第一步就是“簡要記下學習發(fā)生的時間、場合、涉及的學習內(nèi)容和培訓(xùn)(講授或主持)人員”。在微格教學法中,則通過錄像設(shè)備記錄教學全過程。

在信息化網(wǎng)絡(luò)時代,教師可以利用現(xiàn)代教育技術(shù)手段來實現(xiàn)教學過程的忠實記錄,進行有效的教學反思,從而更好地促進自身的專業(yè)發(fā)展。各種新的網(wǎng)絡(luò)技術(shù)工具給我們的生活帶來了新的便利,同時也為教師提供了新的教學反思工具。近年來興起的學習分析技術(shù)可以成為教師開展在線教學反思的有力工具。學習分析技術(shù)是對學生生成的海量數(shù)據(jù)進行解釋和分析,以評估學生的學術(shù)進展,預(yù)測未來的表現(xiàn),并發(fā)現(xiàn)潛在的問題。對教師而言,學習分析技術(shù)可用來開展更為深入的教學分析,以便教師在數(shù)據(jù)分析的基礎(chǔ)上為學生提供更有針對性的教學干預(yù)。在線學習中,在線學習平臺詳細記錄了師生行為,猶如課堂教學錄像。借助學習分析技術(shù),分析師生行為記錄數(shù)據(jù),可以再現(xiàn)在線學習過程,使教師能夠把握在線教學過程全貌,并了解每個教學環(huán)節(jié)、重要教學活動以及每個學生的種種細節(jié),使原本模糊的印象數(shù)字化、清晰化,輔助教師反思其在教學設(shè)計、資源制作、學習引導(dǎo)、學習評價等方面的可取之處與不足之處。

因此,本文選取基于Moodle平臺的在線課程為樣本,應(yīng)用學習分析技術(shù),具體包括話語分析、社會網(wǎng)絡(luò)分析等分析技術(shù),統(tǒng)計分析與可視化、聚類、預(yù)測、關(guān)系挖掘、文本挖掘等數(shù)據(jù)挖掘方法,以及SSAS、SPSS、ucrNET、EXCEL、ICTCLAS中文分詞系統(tǒng)等工具,從一位輔導(dǎo)教師的視角,開展基于學習過程記錄的在線教學反思研究,探索一種全新的教學反思形式。

二 研究樣本

本文選取國家開放大學主辦的網(wǎng)絡(luò)教育從業(yè)人員培訓(xùn)班為研究對象。該培訓(xùn)班依托Moodle平臺開設(shè)(網(wǎng)址:http://),有“學生支持服務(wù)”、“在線學習輔導(dǎo)”和“在線課程設(shè)計”三門課,每門課的培訓(xùn)時間為6周,學生通過Moodle平臺開展在線學習,輔導(dǎo)教師提供全程的在線輔導(dǎo)。本文具體選擇“在線學習輔導(dǎo)”課程第五期培訓(xùn)班作為研究樣本。

三 數(shù)據(jù)分析與培訓(xùn)反思

1 重溫整個教學過程――師生群體平臺訪問行為分析

通過對平臺模塊訪問、模塊訪問序列以及師生活動時間分布情況的分析,重新回顧教學過程,并對一些突出的數(shù)據(jù)表現(xiàn)加以解讀,使原本時空分離的師生活動再度整合,還原輔導(dǎo)教師的教學過程與學生學習過程的原貌。

(1)平臺模塊訪問總體情況

表l是該期培訓(xùn)過程中,師生訪問Moodle平臺各模塊的頻次統(tǒng)計結(jié)果。

從統(tǒng)計結(jié)果可知,師生最常訪問的模塊是“forum”,占總活動頻次的近50%,說明課堂討論是最主要的學習活動,也是這門基于討論的探究式課程學習的突出特點。其次就是“wiki”、“resource”和“assignment”三類行為。這三類行為的頻次和比例較為平均,是位列“Forum”之后的重要學習活動。在討論的基礎(chǔ)上,課程設(shè)計中的“wiki”其實是為了給學生協(xié)作式小組學習的機會,是除“forum”外學生之間重要的交互空間?!皉esource”(瀏覽資源)是學習內(nèi)容重要的組成部分,在此基礎(chǔ)上參加討論和wiki協(xié)作學習,最終的學習成果以“assignment”(小論文、大論文)的形式呈現(xiàn)。這幾個模塊的頻次和比例分配較為合理,較好地還原了教學過程。

(2)平臺模塊訪問序列分析

我們已經(jīng)了解了不同模塊的訪問頻次,下面我們再來了解一些師生訪問平臺模塊的路徑。

這里采用Microsoft順序分析和聚類分析算法,數(shù)據(jù)來源則是用戶每天瀏覽課程頁面產(chǎn)生的過程數(shù)據(jù)。筆者選取5個頻繁訪問模塊包括forum、wiki、assignment,resource和user(course除外,因為在該模塊主要發(fā)生登錄行為,并沒有實際的學習行為)的數(shù)據(jù)來分析模塊訪問序列,得到如圖l所示結(jié)果。由圖l可知,從user、resource、assignment、wiki四個模塊跳轉(zhuǎn)到forum的條件概率均比較高(分別為0.40、0.32、0.26、0.16),可見forum是一個活動中心模塊,也是一個重要的活動中介模塊,諸如resource、assignment、wiki等活動可以從中再次啟動。而在由forum跳轉(zhuǎn)到其他模塊的情形中,forumresource的轉(zhuǎn)換組合的發(fā)生概率是最高的,達到0.06。在發(fā)帖參與討論的過程中,發(fā)現(xiàn)問題、深入思考再繼續(xù)學習相關(guān)資源,這符合學習常規(guī),也形成了討論帶動資源的學習兩者之間的良性互動,從而實現(xiàn)深度學習和反思。另外,resource模塊對其他模塊的支撐作用還表現(xiàn)為assignmentresource,這一條件概率達到0.13,即學生在做作業(yè)的過程中要求助于資源模塊,這也是符合學習常規(guī)的。

(3)不同時期各模塊訪問特點

接下來結(jié)合時間維度,了解不同時期平臺各模塊訪問特點,以了解不同時期師生關(guān)注重點的變化。計算出本期培訓(xùn)不同周此平臺模塊訪問頻次分布情況,并繪制師生在主要學習模塊的活動頻次占比隨時間分布的折線圖,得到如圖2所示結(jié)果。

從圖2可以看出,除高頻訪問模塊forum外,在正式學習開始前兩周及第1周,學生的訪問重點user模塊和resource模塊反映出學生在熟悉人和內(nèi)容。這啟示我們,在網(wǎng)絡(luò)課程開始之前,輔導(dǎo)教師可能需要提前兩到三周就介入課程的學習,實時跟蹤學習進程,為他們提供相應(yīng)的服務(wù)來進行預(yù)熱,這對于后面課程學習的順利發(fā)展和學生積極性的保持都很有幫助。進入第2周,開始主要的學習活動,主要模塊則是wiki以及forum。到第3周,wiki活動達到頂峰一一第3周出現(xiàn)本課程第一次wiki協(xié)作式小組學習活動,所以這時達到頂峰是正常的;另外,這些學生從沒有接觸過基于wiki的小組寫作式學習,所以他們有很強的好奇心和強烈的興趣參與。到第4周,assignment活動達到頂峰。這實際上是學生提交的第3周布置的assignment(小論文),這是本課程第一次提交assignment;課程結(jié)束后的三周,assignment模塊的活動逐漸增強,伴隨著resource模塊活動的增強,forum活動相對減弱,進入做作業(yè)(撰寫大論文)的狀態(tài)。

2 聚焦重點教學活動一一師生論壇交互分析

師生在論壇的討論發(fā)言是本課程的一項重點教學活動。通過這一活動,相關(guān)教學信息得以傳遞,各種其他教學活動得以依次展開,課程知識也在這里不斷呈現(xiàn),支持服務(wù)也在這里相繼給出。

(1)師生交互的數(shù)量與內(nèi)容

該課程討論活動在6個學習單元分散展開,本期培訓(xùn)班發(fā)帖數(shù)量累計743個,如表2所示。由表2可知,輔導(dǎo)教師的發(fā)帖量基本呈緩慢下降的趨勢。從該趨勢我們可以看到,在第1周“學習指南”和第2周“第一單元:什么是在線輔導(dǎo)?”兩周的教學中,由于是在線教學的開始階段,輔導(dǎo)教師需要更多地引導(dǎo)學生進行討論,投入相對更多的時間。從第3周開始,數(shù)據(jù)顯示,輔導(dǎo)教師的發(fā)帖量開始有所減少,從將近50%的比例下降到40%左右。這是因為,經(jīng)過前兩周的學習,由于輔導(dǎo)教師的有效引導(dǎo),學生保持了較高的積極性,效果明顯。從第3周開始,輔導(dǎo)教師有意減少了發(fā)帖的量,注意留給學生更多的時間思考并參與討論,這時候?qū)W生明顯上升到了討論的主角這一角色,這說明輔導(dǎo)教師對于討論的把握和控制比較成功。

(2)師生交互發(fā)帖的內(nèi)容

作者采用傅騫、魏順平等研發(fā)的術(shù)語提取算法從所發(fā)帖子中提取了約240個術(shù)語,如表3所示。這些術(shù)語的出現(xiàn)頻次為4909次(其中輔導(dǎo)教師使用976次,約占20%);在481個帖子中出現(xiàn)(其中教師帖為204個),占帖子總數(shù)的65%。從另外一個角度說,有1/3左右的帖子沒有出現(xiàn)任何術(shù)語。由此可見,論壇的主要功能是開展課程知識討論,次要功能則是激發(fā)并維持學生的學習動機,引導(dǎo)、鼓勵學生不斷參加學習。

在前10位術(shù)語中,“輔導(dǎo)”出現(xiàn)了3次,“在線(遠程)”出現(xiàn)了4次,這比較好地體現(xiàn)了本課程的特點,即在線學習輔導(dǎo)。而排在前兩位的是“輔導(dǎo)教師”和“電大”,這更能說明這次培訓(xùn)的內(nèi)容和對象的特點。無一例外,本次培訓(xùn)的對象全部來自電大系統(tǒng),所以他們對本系統(tǒng)是最關(guān)注的,另外他們對如何做好“輔導(dǎo)教師”也是最關(guān)心的,所以他們選擇了這門課。從這些術(shù)語可以看出,本期的討論比較成功,課程的設(shè)計也比較合理,能夠滿足學生的需求。

接著,作者對各單元使用的普通詞匯(包括動詞和名詞等實詞,不含虛詞,不含術(shù)語)使用頻次進行統(tǒng)計,以體現(xiàn)輔導(dǎo)教師的語言藝術(shù)和輔導(dǎo)特色。其中使用頻次排名前十的普通詞匯分別是“同學、加油、學生、謝謝、可以、學習、問題、課程、研究、討論”。“加油”和“謝謝”這兩個詞的大量使用反映了輔導(dǎo)教師為學生提供的情感支持。輔導(dǎo)教師時時刻刻不忘鼓勵、支持任何一位學生的發(fā)言和進步,處處對他們的討論表示感謝,無論發(fā)言是否精彩,無論對他們的觀點是否贊同,都通過“加油”和“謝謝”表示感謝。

(3)師生交互的動態(tài)過程與靜態(tài)結(jié)構(gòu)

我們從師生交互發(fā)帖時間分布以及師生交互網(wǎng)絡(luò)分析來了解師生交互的動態(tài)過程與靜態(tài)結(jié)構(gòu)。本培訓(xùn)課程設(shè)有6個單元外加大論文指導(dǎo)環(huán)節(jié)(實際上是7個單元),計劃教學時間是6周,一個單元用時一周。理想情況下,學生應(yīng)該在規(guī)定的學習時間內(nèi)完成相應(yīng)單元的活動,但事實并非如此。以每個單元的“話題討論”為例,某個單元的話題往往要持續(xù)3周才會真正結(jié)束。各單元討論活動隨時間分布情況如表4所示。

表4中帶*號的數(shù)字部分是在單元規(guī)定學習時間內(nèi)的發(fā)帖數(shù)量,但是每個單元在規(guī)定學習時間后,在隨后的2至3周還陸續(xù)有帖子發(fā)出來。于是從第3單元開始,將會有3個單元的活動疊加在一起。出現(xiàn)這種疊加現(xiàn)象,可能較大程度上是由工學矛盾造成的。學生不能及時完成本周的學習活動,所以會往后拖延。其實,從學生的角度是可以理解的,這也要求我們的在線教學要有一定的靈活性。同時,也恰恰是在第3周開始出現(xiàn)第一個assgignment(小論文),學生的負擔開始加重。正是當“新債舊債”交織在一起的時候,出現(xiàn)了連鎖式疊加的現(xiàn)象。當然,這種現(xiàn)象也會無形中增加輔導(dǎo)教師的負擔。

根據(jù)輔導(dǎo)教師和學生發(fā)帖、回帖的關(guān)系,借助UCINET社會網(wǎng)絡(luò)分析工具,可繪制師生交互網(wǎng)絡(luò)圖,如圖3所示。從圖3可以看出,所有24個成員(包括輔導(dǎo)教師,如圖中編號為68的正方形節(jié)點)均在一個網(wǎng)絡(luò)中,不存在孤立的成員。

篇(9)

2001年以來,信息推送模式成為我國圖書情報界關(guān)注與討論的熱點,對信息推送的技術(shù)、內(nèi)容、方式、應(yīng)用和存在的問題等進行了研究[7],尤其在數(shù)字圖書館信息推送中得到較多的實踐,如浙江大學圖書館推出了入藏新書郵件推送服務(wù)[8],西北工業(yè)大學圖書館對三大索引收錄論文進行郵件推送服務(wù)等[9]。期刊擁有3支較大的隊伍,即作者隊伍、審稿專家隊伍和編委隊伍,他們是期刊文獻潛在的用戶群。由于用戶以拉取模式獲取期刊文獻存在以上問題,筆者提出基于用戶科研工作文獻信息的需要,以電子郵件方式進行期刊文獻的推送,以便用戶能夠及時獲取和引用相關(guān)文獻信息。這樣可以宣傳與推介期刊,轉(zhuǎn)變服務(wù)理念,由過去的用戶單向被動獲取文獻,到現(xiàn)在的期刊主動出擊,從而加強用戶與期刊的互動與合作,以實現(xiàn)“推”“拉”結(jié)合的方式,為用戶提供更及時、主動和有針對性的文獻服務(wù),提升期刊文獻的顯示度、利用率和影響力。

2電子郵件系統(tǒng)進行期刊文獻推送的策略

2.1用戶數(shù)據(jù)庫的建立

要向用戶推送期刊文獻,必須要有需求期刊文獻用戶的數(shù)據(jù)信息和電子郵件地址等,可以通過多種渠道準確獲取用戶的有關(guān)信息:一是通過編輯部的投審稿系統(tǒng)提取投稿作者及評審專家的信息,如用戶姓名、研究方向及電子郵箱等;二是通過編委資源庫獲取相關(guān)編委的個人信息;三是通過行業(yè)學術(shù)會議的通訊錄等提取相關(guān)專業(yè)學者的信息;四是通過高校院系網(wǎng)站獲取專業(yè)學科帶頭人及有關(guān)學者的信息;五是與其他期刊編輯部進行資源互換,獲取有關(guān)專家的信息。將收集到的用戶數(shù)據(jù)(用戶名、專業(yè)方向、電子郵箱等)建立在群發(fā)郵件工具Outlook(或OutlookExpress等)中,及時更新用戶數(shù)據(jù)庫,并將用戶按照專業(yè)方向進行歸類分組,不斷挖掘和發(fā)現(xiàn)用戶文獻信息的需求。

2.2期刊文獻的提取

篇(10)

中圖分類號:G251.5文獻標識碼:A文章編號:1003-1588(2015)03-0113-03

服務(wù)是圖書館永恒的主題,程煥文提出圖書館精神為“智慧與服務(wù)”[1]。2008年孫浩在論文《關(guān)于文獻計量服務(wù)的研究》首次提出文獻計量服務(wù)(Bibliometric Service)的概念以及相關(guān)理論。文獻計量服務(wù)工作是促進知識生產(chǎn)的配套措施,是采用數(shù)學分析工具和計算機技術(shù)對各類文獻計量特征進行統(tǒng)計分析,從而發(fā)現(xiàn)文獻情報規(guī)律、文獻管理方法以及學科發(fā)展趨勢的情報服務(wù)工作,向讀者和社會提供全方位的文獻分布藍圖[2]。文獻計量服務(wù)理念恰好符合圖書館智慧服務(wù)的精神,迎合了圖書館深層次、學科化服務(wù)的理念,作為拓展延伸高校圖書館科研支持服務(wù)的新生長點,在一定程度上能夠很好地適應(yīng)當前高校及其科研工作者的信息需求,為圖書館轉(zhuǎn)變職能角色以及深化學科服務(wù)提供了切實可行的理論、方法和途徑。

1開展文獻計量服務(wù)工作的基礎(chǔ)

隨著網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展以及全面的數(shù)據(jù)庫資源的開發(fā),分析型數(shù)據(jù)庫也隨之出現(xiàn),其中比較著名的有SCI、SSCI、ESI、CSSCI、EI、Scopus、Incites等,這些數(shù)據(jù)庫可以為文獻計量服務(wù)提供全面而可靠的統(tǒng)計源,即硬件條件。文獻計量服務(wù)要求圖書館員掌握一定量的數(shù)學分析工具和計算機技術(shù)方法來對各種類型的文獻計量特征進行統(tǒng)計分析,這項工作具有很強的知識性與技術(shù)性。高校圖書館近年來引進大量高素質(zhì)高水平人才,其中包含一批既具有學科背景又有圖書情報專業(yè)知識的全能型館員,雖然目前他們暫時分布在各個業(yè)務(wù)部門,但經(jīng)過專業(yè)訓(xùn)練,就會形成一支能夠開展文獻計量服務(wù)的隊伍,因此目前高校圖書館已經(jīng)具備開展文獻計量服務(wù)的技術(shù)保障與人員力量,這為文獻計量服務(wù)工作的開展奠定了堅實的基礎(chǔ)。

2文獻計量服務(wù)的內(nèi)容

文獻計量服務(wù)是使用文獻計量(信息計量)分析方法和工具,通過一定的情報分析和文獻數(shù)據(jù)挖掘技巧,對文獻進行深層次的加工,技術(shù)含量較高,屬于高層次的知識服務(wù)工作。在高校開展文獻計量服務(wù),通過對各類文獻計量特征進行統(tǒng)計與分析,從而發(fā)現(xiàn)文獻情報規(guī)律、文獻管理方法以及學科發(fā)展趨勢,達到對研究機構(gòu)、科研工作者或?qū)W科科研競爭力以及學科發(fā)展態(tài)勢發(fā)展狀況等進行客觀評估及分析[3],以評估科研績效和檢測科研發(fā)展態(tài)勢,從而輔助科研管理者進行科研決策,包括學校人才的整體狀況分析以及各學科師資力量的分布、科研課題的申報與獎勵,科研基金分配、成果獎勵、人才選拔與引進等。輔助研究者的科學研究包括分析本學科的發(fā)展態(tài)勢、個人的科研業(yè)績以及在同行中的競爭優(yōu)勢、研究前沿、趨勢、引領(lǐng)學科發(fā)展等。具體可以通過對學術(shù)期刊、文獻的統(tǒng)計分析,了解研究機構(gòu)分布、學科的成長階段判斷、發(fā)展趨勢預(yù)測等,以此作為評價學科發(fā)展的依據(jù)。通過對科研能力、優(yōu)勢學科分布、發(fā)展狀況、人力資源狀況、科研效率等進行統(tǒng)計分析,可以對學術(shù)機構(gòu)進行評價。還可以通過某一著者的科研論文及專著發(fā)表情況、研究領(lǐng)域與專長、學術(shù)貢獻、科研潛在能力等進行著者評價。文獻計量服務(wù)在很大程度上是以大型分析數(shù)據(jù)庫作為依據(jù),主要以科研論文作為學科分析與評價統(tǒng)計源,具體的基于論文數(shù)據(jù)平臺的學科分析見表1。表1學科分析常用論文數(shù)據(jù)庫平臺

數(shù)據(jù)庫名稱評價指標評價內(nèi)容評價維度ESI數(shù)據(jù)庫國際論文總量排名總體科研表現(xiàn)國際論文總被引排名總體學科影響力學科綜合實力Incites數(shù)據(jù)庫WOS數(shù)據(jù)平臺論文占全球的比例科研活躍度論文總被引占全球的比例科研影響力學科H指數(shù)學術(shù)綜合實力學術(shù)影響力Incites數(shù)據(jù)庫ESI數(shù)據(jù)庫WOS數(shù)據(jù)平臺篇均被引的全球均值比科研平均質(zhì)量ESI高被引論文或熱點論文比例科研前沿性頂級期刊論文的國際份額同行認可度基金項目的論文質(zhì)量項目完成質(zhì)量學術(shù)質(zhì)量Incites數(shù)據(jù)庫國際合作論文占全球的比例國際科研合作國際會議論文占全球的比例國際學術(shù)交流國際合作與交流WOS數(shù)據(jù)平臺跨院系的合作論文比例學科交叉活躍度跨院系的合作論文的學科分布學科交叉的聚度跨院系的合作論文的期刊及被引學科交叉的質(zhì)量學科交叉王芳,龐德盛,楊錯:高校圖書館開展文獻計量服務(wù)的探索與思考王芳,龐德盛,楊錯:高校圖書館開展文獻計量服務(wù)的探索與思考學校的職能部門即科研管理者和科研機構(gòu)及科研工作者對文獻計量服務(wù)的關(guān)注側(cè)重點各有不同,因此文獻計量服務(wù)針對不同的對象采取不同的服務(wù)內(nèi)容,這樣服務(wù)才更合理、更具針對性。

3文獻計量服務(wù)的模式

根據(jù)文獻計量服務(wù)的特點,將服務(wù)模式分為兩種,主動推送和用戶個性化定制。主動推送就是定期通過微博、微信、圖書館主頁、簡報等平臺主動推送服務(wù)產(chǎn)品,或通過培訓(xùn)講座、問卷調(diào)查、讀者沙龍等形式讓大家充分了解圖書館館員所做的工作及其價值,特別是工作開展初期,在用戶對文獻計量服務(wù)不了解的情況下,這種模式可以讓用戶了解文獻計量服務(wù)人員所能做的科研服務(wù)內(nèi)容及服務(wù)價值。圖書館可以提供個性化服務(wù),年齡在40歲以上的副教授和教授由于在業(yè)界已經(jīng)有了一定名譽和地位,可以對他們進行團隊學術(shù)影響力的分析(包括團隊科研成果的產(chǎn)出情況、被引用情況及影響力、H指數(shù)以及與其他團隊合作情況進行分析),同時也關(guān)注教授個人在全球、國內(nèi)、同行中的位置,如某教授本人的科研狀況分析,某教授科研論文發(fā)文量和被引情況分析。而對于剛進入科研領(lǐng)域的年輕教師,文獻計量服務(wù)就要重點關(guān)注學者個人學術(shù)影響力的分析和所在學科領(lǐng)域的發(fā)展態(tài)勢,還可以對教師本人在本學科領(lǐng)域的成就和影響力進行分析評價。文獻計量服務(wù)的個性化科研分析,不僅有利于挖掘?qū)W科領(lǐng)域中堅力量和有潛力的科研人才,還可以挖掘某一領(lǐng)域的知識淵源、演進脈絡(luò)、熱點研究等內(nèi)容。通過對高校及其內(nèi)部的各種計量對象進行統(tǒng)計分析,可以為高校管理者的科研決策提供參考。

4文獻計量服務(wù)的業(yè)務(wù)框架

通過分析文獻計量服務(wù)的對象、模式及核心業(yè)務(wù)流程,并將這些流程與服務(wù)業(yè)務(wù)框架有機融合在一起,初步建立起文獻計量服務(wù)的業(yè)務(wù)框架。文獻計量服務(wù)工作首先要確定服務(wù)對象的層次進而選擇相應(yīng)的服務(wù)模式,然后找出與之相匹配的服務(wù)方法,再根據(jù)文獻計量服務(wù)的核心業(yè)務(wù)流程進行有效文獻計量產(chǎn)品的創(chuàng)造,最后綜合反饋的結(jié)果,進行數(shù)據(jù)的綜合分析,形成最終的文獻計量服務(wù)報告。

5討論

5.1文獻計量服務(wù)是圖書館構(gòu)建主導(dǎo)型服務(wù)模式的途徑

近年來,隨著圖書情報事業(yè)外部發(fā)展環(huán)境的不斷變化以及圖書情報學新理論、新思想的不斷呈現(xiàn),圖情專家開始從廣義的服務(wù)視角,思索探討發(fā)揮圖書情報機構(gòu)的文獻計量功能。高校圖書館新時期提升工作水平的一個重要突破口就是著力強化決策服務(wù)功能,顯著提升參考咨詢工作水平。高校圖書館特別是研究型高校圖書館擁有豐富的文獻信息資源優(yōu)勢,又集合了專業(yè)學科館員力量,大多具有調(diào)研課題的成功經(jīng)驗,完全有條件建立文獻計量服務(wù)部門。圖書館應(yīng)加快情報服務(wù)水平的提升,提供與教學科研相關(guān)的信息和情報研究產(chǎn)品,構(gòu)建主導(dǎo)型服務(wù)模式。

5.2文獻計量服務(wù)是實現(xiàn)高校圖書館可持續(xù)發(fā)展的選擇

將文獻計量服務(wù)理念引入高校圖書館,更好地實現(xiàn)智慧服務(wù),不僅可以提高圖書館對高校教學和科研的影響力,而且可以為圖書館尋求和發(fā)展服務(wù)新的生長點提供有力支持。隨著現(xiàn)代信息技術(shù)的不斷發(fā)展,圖書館情報學的技術(shù)含量也相應(yīng)地提高,賦予其全新內(nèi)涵,可以說,加強并大力發(fā)展圖書情報領(lǐng)域?qū)W科化服務(wù)必然成為高校圖書館可持續(xù)發(fā)展的要求。文獻計量服務(wù)為高校圖書館在大學中的角色轉(zhuǎn)變打開一扇新的大門,使圖書館參與到高校的科研發(fā)展、政策制定和學科引領(lǐng)之中,轉(zhuǎn)變其在高校發(fā)展中的邊緣角色。通過創(chuàng)新服務(wù),真正迎合用戶科研支持服務(wù)需求,探索有效的文獻計量服務(wù)模式,建立可持續(xù)發(fā)展的長效服務(wù)機制,真正實現(xiàn)圖書館服務(wù)的不可替代性,實現(xiàn)高校圖書館的可持續(xù)發(fā)展[5]。

5.3文獻計量服務(wù)是高校發(fā)展的需要

學科建設(shè)是高等院校提高教學質(zhì)量和科研水平的重要基礎(chǔ),而學科發(fā)展策略的制定首先需要對自身的學科發(fā)展情況進行客觀準確的評估和分析,進而合理地完善自身的學科體系、加強重點學科的優(yōu)勢。國內(nèi)外高校也越來越重視通過各種類型的學科評估把握自身的學科發(fā)展態(tài)勢、本學科的優(yōu)勢和劣勢、重點研究方向、資源分配方案等,從而對高校的學科發(fā)展戰(zhàn)略提供重要依據(jù)和指導(dǎo)意義。通過文獻計量和相關(guān)統(tǒng)計數(shù)據(jù)的分析能幫助科研人員很好地判斷出某一學科的發(fā)展現(xiàn)狀、發(fā)展趨勢及潛力,同時也能在一定程度上判斷出科研人員的科研能力、學術(shù)水平及影響力。隨著文獻計量理論研究和應(yīng)用的不斷深入,適時在高校圖書館推出文獻計量服務(wù)模式是一種必然趨勢。在信息化大環(huán)境下,面對新的機遇和挑戰(zhàn),高校圖書館必須積極分析自己的優(yōu)勢并加以充分利用與發(fā)揮,提升圖書館的軟實力。

參考文獻:

[1]程煥文.實在的圖書館精神與圖書館精神的實在――《圖書館精神》自序[J].大學圖書館學報,2006(4):2-14.

[2]孫浩.關(guān)于文獻計量服務(wù)的研究[J].現(xiàn)代情報,2008(6):64-66.

[3]孫玉偉,劉昌榮,朱玉強.大學圖書館文獻計量服務(wù)實踐探索[J].圖書館雜志,2014(1):56-61.

篇(11)

中圖分類號:F299.2 文獻標識碼:A 文章編號:1672-3198(2010)02-0028-02

1 分部門、分災(zāi)種的危機管理決策支持系統(tǒng)

我國防震減災(zāi)系統(tǒng)應(yīng)用和輔助決策系統(tǒng)的發(fā)展是與計算機技術(shù),主要是GIS技術(shù)的發(fā)展相輔相成的。在20世紀80年代初,我國通過世行貸款開始了有關(guān)城市地理信息系統(tǒng)的開發(fā)研究?!熬盼濉逼陂g,結(jié)合950 項目(大中城市防震減災(zāi)示范研究與應(yīng)用),地震系統(tǒng)有關(guān)單位在烏魯木齊、天津、大連、合肥、自貢、泰安、福州、廈門等地建立了各自地區(qū)的“基于GIS的防震減災(zāi)信息與輔助決策系統(tǒng)”,利用GIS等工具軟件,姚保華(2002)將區(qū)域地震環(huán)境、震害預(yù)測成果和應(yīng)急輔助決策模塊等進行集成。云南地震局王景來(1999)將GIS應(yīng)用到地震災(zāi)害的評估提出將地震災(zāi)害評估智能化或半智能化的設(shè)想,在此基礎(chǔ)上建立了玉溪地震減災(zāi)信息系統(tǒng)。上海地震局宋俊高、火恩杰等(2000)將GIS應(yīng)用到城市防震減災(zāi)應(yīng)急研究,以上海市寶山區(qū)為試點,建立了上海市防震減災(zāi)應(yīng)急決策信息系統(tǒng)。王曉青等(2004)利用現(xiàn)代通訊技術(shù)、GIS技術(shù)和信息處理技術(shù),構(gòu)建了基于GIS的地震現(xiàn)場災(zāi)害損失評估系統(tǒng),實現(xiàn)破壞性地震發(fā)生后地震現(xiàn)場災(zāi)害損失的快速、動態(tài)評估,現(xiàn)場震情和災(zāi)情信息的顯示以及各種信息的遠程交換。

火災(zāi)是各種災(zāi)害中發(fā)生最頻繁且具有很強破壞性的一種。謝喚亮(1997)給出了基于GIS的決策支持系統(tǒng)的框架,并在南京市消防指揮中心初步實現(xiàn)。許云,任愛珠(2003)對虛擬現(xiàn)實技術(shù)(VR)在基于GIS的城市消防指揮系統(tǒng)中的應(yīng)用進行了研究。朱霽平(2004)建立城市火災(zāi)應(yīng)急決策支持系統(tǒng),一旦發(fā)生火災(zāi),信息可以迅速傳遞到指揮中心,并快速模擬災(zāi)害現(xiàn)場情況、預(yù)測災(zāi)害發(fā)展趨勢,綜合各種要素,生成救援方案,有效調(diào)度和科學利用消防減災(zāi)資源。

國內(nèi)防洪減災(zāi)決策支持系統(tǒng)的研究起源于20世紀80年代末期,特別是國家在“八五”期間安排的“八五”重點科技攻關(guān)項目――長江、黃河、淮河防洪減災(zāi)DSS研究,出現(xiàn)了很多比較成功的成果,胡四一等(1996)在分析總結(jié)長江中下游防洪經(jīng)驗和防洪決策流程的基礎(chǔ)上,研究防洪決策支持系統(tǒng)建立的開發(fā)模式、程序、方法、技術(shù)和應(yīng)用模式,研制和開發(fā)了系統(tǒng)中總控管理――人機界面系統(tǒng)、數(shù)據(jù)庫、知識庫、系統(tǒng)接口和通訊軟件、洪水演進和調(diào)度仿真模型、防洪決策風險分析模型等,初步建立了可運行的原型系統(tǒng),并通過聯(lián)機試驗運行、檢驗系統(tǒng)設(shè)計、推進分洪決策支持系統(tǒng)的實際應(yīng)用。到20世紀90年代初,又有翁文斌等開發(fā)的安陽市防洪DSS,浙江省洪澇臺風災(zāi)害預(yù)報及省級防洪調(diào)度決策系統(tǒng)、黃河防洪調(diào)度決策支持系統(tǒng)和長江防洪決策支持系統(tǒng)等投入運行。這些系統(tǒng)都以關(guān)系數(shù)據(jù)庫為核心,系統(tǒng)具有一定的可擴展性、可移植性。余達征等(1999)針對防洪減災(zāi)DSS的不足和防洪減災(zāi)決策的特點,將專家系統(tǒng)中的知識處理思想引入防洪減災(zāi)DSS中以解決其不足之處。設(shè)計出智能型的城市防洪減災(zāi)DSS。

2 城市危機管理決策支持系統(tǒng)

2.1 城市危機管理決策支持系統(tǒng)理論研究

韓燕暉將城市公共危機防范與救助系統(tǒng)分為指揮決策系統(tǒng)這一上位系統(tǒng)與預(yù)警系統(tǒng)、預(yù)案系統(tǒng)、信息系統(tǒng)、保障系統(tǒng)、動員系統(tǒng)、善后系統(tǒng)等六個下位系統(tǒng)。劉寧認為突發(fā)事件應(yīng)急決策支持系統(tǒng)是用戶通過人機交互與系統(tǒng)主推理機連接,并借助規(guī)則、案例、模糊知識推理部分共同完成不同庫間的調(diào)用和內(nèi)部推理求解。朱曉峰等根據(jù)政府決策支持系統(tǒng)的信息復(fù)雜程度和時效程度將其分為四大類:日常決策支持系統(tǒng)、宏觀決策支持系統(tǒng)、重大活動決策支持系統(tǒng)和危機決策支持系統(tǒng)?;葜颈髽?gòu)造了由危機信息管理預(yù)警、危機信息管理知識、危機管理指揮、危機管理反應(yīng)、危機管理恢復(fù)等子系統(tǒng)構(gòu)成的綜合性危機信息管理系統(tǒng)。谷巖,馮華綜介運用數(shù)據(jù)倉庫、聯(lián)機分析處理(OLAP)、數(shù)據(jù)挖掘、信息智能推拉等多種信息處理技術(shù),以多種形式靈活地生成各種應(yīng)急方案。徐志勝等以地理信息系統(tǒng)(G1S)為平臺,集成決策支持系統(tǒng)(DSS),研究開發(fā)了“基于G1S的城市公共安全應(yīng)急決策支持系統(tǒng)”。唐裙裙認為應(yīng)該采用五級架構(gòu),底層是硬件支持層;其次是基礎(chǔ)信息層;基于其上的是決策支撐平臺層;再上層是決策應(yīng)用平臺層;最上層是用戶界面,需要針對不同類型的用戶進行設(shè)計。張茜公共危機管理決策支持系統(tǒng)的主要功能包括機理分析、預(yù)警預(yù)報、資源優(yōu)化、綜合評價和決策建議。柳宗偉,景廣軍提出利用信息技術(shù)促進我國城市危機管理機制創(chuàng)新的思路,即建立以統(tǒng)一機構(gòu)(城市危機管理中心)為核心的調(diào)度統(tǒng)一、聯(lián)動協(xié)調(diào)、信息共享的城市綜合危機管理機制,研制實用的城市危機管理決策支持系統(tǒng)以支持該模式的高效運作。

2.2 城市危機管理決策支持系統(tǒng)技術(shù)支撐

在智能決策支持系統(tǒng)的算法研究方面,研究的焦點集中在GIS路徑優(yōu)化、案例檢索算法以及數(shù)據(jù)挖掘等方面:黃詩峰等對災(zāi)民撤退網(wǎng)絡(luò)流模型及其GIS模擬技術(shù)進行了深入研究;羅忠良對案例推理系統(tǒng)中案例檢索算法的改進進行了探討;馮興杰等對有關(guān)數(shù)據(jù)挖掘及其關(guān)聯(lián)規(guī)則算法進行了詳細地討論;陶靈皎,孫繼銀等對決策樹的算法進行詳細探討并針對自己的研究對象作了適當優(yōu)化;王秀坤等設(shè)計了改進的EM算法并實現(xiàn)了在防洪決策中的應(yīng)用。

2.3 城市危機管理決策支持系統(tǒng)工程實踐

2003年“非典”事件后,我國目前許多城市已經(jīng)開始設(shè)置專門的應(yīng)急管理機構(gòu),將應(yīng)急管理作為政府的一項日常的工作來抓,使城市應(yīng)急管理逐漸走上正規(guī)化和制度化的軌道。已建成的城市應(yīng)急管理機構(gòu)有北京市突發(fā)公共事件應(yīng)急委員會、上海市突發(fā)公共事件應(yīng)急管理委員會、深圳市處置緊急事務(wù)委員會、廣州110社會聯(lián)動中心、武漢市110聯(lián)動服務(wù)中心、南寧市社會應(yīng)急聯(lián)動中心等。城市危機管理信息系統(tǒng)一般由以下四個子系統(tǒng),即應(yīng)急指揮系統(tǒng)、應(yīng)急業(yè)務(wù)處理系統(tǒng)、信息與資源共享系統(tǒng)、決策支持系統(tǒng)組成。管理決策支持系統(tǒng)作為城市危機管理信息系統(tǒng)的一個子系統(tǒng),目前大多城市尚未進行專門建設(shè)。但在某些城市危機管理信息系統(tǒng)中包含了初步的輔助決策功能,下面分別對具有代表性的北京、天津、深圳、臺灣的城市危機管理信息系統(tǒng)中所包含的輔助決策功能進行介紹。

北京市危機管理信息系統(tǒng)主要由以下子系統(tǒng)組成:①網(wǎng)絡(luò)通信子系統(tǒng),比如有政府網(wǎng)、應(yīng)急呼報警網(wǎng);②信息數(shù)據(jù)庫子系統(tǒng),城市地理環(huán)境數(shù)據(jù)庫、城市社會經(jīng)濟數(shù)據(jù)庫、災(zāi)害歷史數(shù)據(jù)庫;③應(yīng)急評估數(shù)學模型子系統(tǒng),危機事件潛勢預(yù)測模型、社會災(zāi)變心理分析模型等;④對策預(yù)案子系統(tǒng),綜合應(yīng)急管理總體預(yù)案,單災(zāi)種專業(yè)應(yīng)急預(yù)案,預(yù)案實施決策流程;⑤專業(yè)救援子系統(tǒng),比如醫(yī)療急救網(wǎng)、消防網(wǎng)自然災(zāi)害現(xiàn)象救援保障,還有公共設(shè)施搶修隊,治安和反恐防爆隊。這里應(yīng)急評估數(shù)學模型子系統(tǒng)和對策預(yù)案子系統(tǒng)就包含了初步的輔助決策功能。其應(yīng)急指揮系統(tǒng)中心設(shè)計聯(lián)動國家減災(zāi)中心、水利、氣象、地震、消防社區(qū)、單位重點區(qū)域,城市生命線系統(tǒng)管理部門,它有一些監(jiān)測設(shè)備,比如現(xiàn)場空中監(jiān)測,還有現(xiàn)場救援指揮車,對突發(fā)公共事件進行災(zāi)害的動態(tài)顯示。還有應(yīng)急對策的顯示系統(tǒng),根據(jù)專家的意見和對策,進行會商結(jié)果,最后形成一個綜合的減災(zāi)策指令。

天津市負責突發(fā)公共事件應(yīng)急管理的主要部門是防災(zāi)應(yīng)急指揮中心,配置有線、無線通信系統(tǒng)、指揮輔助決策系統(tǒng)、指揮辦公自動化系統(tǒng)、遠程圖像傳輸系統(tǒng)、綜合視訊系統(tǒng)、應(yīng)急供電、供水系統(tǒng)、樓宇保安監(jiān)控系統(tǒng)等,運用現(xiàn)代通信網(wǎng)絡(luò)和高技術(shù)手段,實現(xiàn)各類應(yīng)急信息的收集、處理、整合,為市領(lǐng)導(dǎo)處置重大災(zāi)害和突發(fā)事件實施應(yīng)急指揮提供了基本平臺和手段。指揮中心在樓設(shè)置了專家會商室和相關(guān)單位、搶險專業(yè)組、應(yīng)急救援隊工作室,可集中各險種專家和專業(yè)組、隊共同會商,為領(lǐng)導(dǎo)提供輔助決策。

深圳市應(yīng)急指揮系統(tǒng)的輔助決策概況:深圳政府特別重視對預(yù)案信息系統(tǒng)的設(shè)計和開發(fā)。深圳有關(guān)部門制定和修改了各項應(yīng)急預(yù)案,明確各類突發(fā)事件分級分類定量標準,提高預(yù)案的可操作性,并建成預(yù)案數(shù)據(jù)庫,納人應(yīng)急指揮技術(shù)平臺的“預(yù)案生成系統(tǒng)”。深圳市發(fā)生重特大突發(fā)性事件時,市領(lǐng)導(dǎo)不但可以在應(yīng)急指揮中心通過視頻、音頻系統(tǒng)進行現(xiàn)場指揮,還通過地理信息系統(tǒng)和電子地圖了解事件發(fā)生地點的具置及周邊情況。同時,系統(tǒng)還將根據(jù)現(xiàn)場和數(shù)據(jù)庫中的各種數(shù)據(jù),自動生成多個應(yīng)急預(yù)案以供領(lǐng)導(dǎo)決策選擇。

臺灣的災(zāi)害管理決策支持系統(tǒng)研究結(jié)合了地理信息系統(tǒng)(GlS)、遙感(RS)、全球定位系統(tǒng)(GPS)以及日益成熟的網(wǎng)絡(luò)技術(shù),建立一套整體性的防災(zāi)救災(zāi)決策支持系統(tǒng)。該系統(tǒng)使用災(zāi)害生命周期法來進行決策支持系統(tǒng)整體架構(gòu)的規(guī)劃,將災(zāi)害從發(fā)生前至發(fā)生后的整個過程視為一個完整的災(zāi)害管理循環(huán)周期,并進一步分析各階段所需的決策支持需求,運用模組化的概念規(guī)劃其中的各項子系統(tǒng)。完整的災(zāi)害防救決策支持系統(tǒng)資料庫由地理資料庫、氣象水文觀測資料庫、歷史性災(zāi)害資料庫、趨勢分析與境況模擬成果資料庫、詮釋資料庫等五大資料庫組成。臺灣是多發(fā)地震的地區(qū),以該系統(tǒng)的地震知識管理為例,通過“案例式推理”的研究方法,搜集臺灣歷年來都市層級的地震防災(zāi)救災(zāi)相關(guān)研究(不含地質(zhì)研究、地震工程)案例一百余例,并利用英國Wales大學所開發(fā)的CBR軟件caspian(1999),建置“地震防災(zāi)救災(zāi)文獻案例式查詢系統(tǒng)”,探討其應(yīng)用于都市防災(zāi)救災(zāi)的可行性,初步獲得了良好的成果。

參考文獻

[1]姚保華,陶夏新.分布式防震減災(zāi)系統(tǒng)的可行性[M].南京:東南大學出版社,2002.10.

[2]王曉青,丁香.基于GIS的地震現(xiàn)場災(zāi)害損失評估系統(tǒng)[J].自然災(zāi)害學報,2004, 13(1):118-125.

[3]許云,任愛珠,潘國帥.基于GIS和VR的消防指揮系統(tǒng)研究[J].土木工程學報,2003,36(5):92-96.

[4]朱霽平.基于GIS的城市火災(zāi)應(yīng)急空間決策支持系統(tǒng)和仿真模型[D].中國科學技術(shù)大學博士學位論文,2004.

[5]谷巖,馮華.智能化城市防災(zāi)救災(zāi)應(yīng)急處理支持系統(tǒng)的研究[J].計算機工程與設(shè)計,2005,(6): 1503-1505.

主站蜘蛛池模板: √天堂资源地址在线官网| 亚洲av无码专区在线播放 | 护士的诱惑电影| 五月综合色婷婷| 欧美性猛交xxx黑人猛交| 伊人久久大香线蕉综合AV| 精品视频第一页| 国产乱码精品一区二区三区四川人| 人人玩人人添人人| 欧美国产亚洲精品高清不卡| 伊人久久大香线蕉av一区二区| 美国式禁忌芭芭拉| 国产一区二区不卡老阿姨| 麻豆va一区二区三区久久浪| 国产精品久久久久一区二区三区| 97久久人人超碰国产精品| 日本老妇人乱xxy| 亚洲av无码片在线播放| 欧美日本在线三级视频| 亚洲第一区精品日韩在线播放| 狠狠躁夜夜躁人人爽天天天天97| 国产免费小视频在线观看| 99re热久久这里只有精品首页| 国产熟睡乱子伦视频| 你懂的视频在线播放| 国产精品综合视频| 一本久久a久久精品vr综合| 手机在线观看你懂的| 久久久久无码精品国产| 日本高清视频在线www色| 久久精品国内一区二区三区| 最近免费观看高清韩国日本大全 | 成年女性特黄午夜视频免费看| 久久久久久久久久久久久久久| 欧美肥臀bbwbbwbbw| 亚洲色欲久久久综合网| 色欲综合久久中文字幕网| 国产午夜福利精品一区二区三区 | 国产精品无码久久综合网| 91中文字幕在线| 少妇性俱乐部纵欲狂欢少妇|