亚洲欧美日韩成人_亚洲精品国产精品国产自_91精品国产综合久久国产大片 _女同久久另类99精品国产

網(wǎng)絡(luò)爬蟲的用戶信息提取方法

時間:2023-03-21 09:37:41

緒論:寫作既是個人情感的抒發(fā),也是對學(xué)術(shù)真理的探索,歡迎閱讀由發(fā)表云整理的1篇網(wǎng)絡(luò)爬蟲的用戶信息提取方法范文,希望它們能為您的寫作提供參考和啟發(fā)。

網(wǎng)絡(luò)爬蟲的用戶信息提取方法

網(wǎng)絡(luò)中有海量的數(shù)據(jù),要想快速而精準(zhǔn)獲取相應(yīng)數(shù)據(jù),才能對其中的數(shù)據(jù)進(jìn)行詳細(xì)的分析,數(shù)據(jù)的獲取需要使用一定的方法。目前獲取數(shù)據(jù)比較有效的方式當(dāng)屬網(wǎng)絡(luò)爬蟲。也可以稱網(wǎng)絡(luò)爬蟲為網(wǎng)絡(luò)蜘蛛,抑或網(wǎng)絡(luò)信息采集器。網(wǎng)絡(luò)爬蟲是一種計算機(jī)程序或者自動化的腳本,可以給它制定一種規(guī)則,讓其自動的抓取或者下載指定頁面的數(shù)據(jù)或內(nèi)容。秦雅琴[1]等人詳細(xì)介紹了什么是網(wǎng)絡(luò)爬蟲技術(shù),也闡述了其基本內(nèi)容,總結(jié)了各類交通信息獲取方法的研究,從不同方面綜述了國內(nèi)外應(yīng)用網(wǎng)絡(luò)爬蟲技術(shù)解決交通信息獲取問題的研究歷史和現(xiàn)狀。張立鑒[2]認(rèn)為現(xiàn)有的適合處理結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用程序很難直接使用網(wǎng)頁上的數(shù)據(jù)。可以手動收集數(shù)據(jù),并且可以根據(jù)預(yù)定義的格式對從互聯(lián)網(wǎng)收集的各種信息進(jìn)行分類和轉(zhuǎn)換。劉多林[3]等人利用網(wǎng)頁爬蟲技術(shù),協(xié)助瀏覽器抓取網(wǎng)絡(luò)頁面,統(tǒng)計訪問模式和網(wǎng)頁瀏覽內(nèi)容,獲取歷史行為數(shù)據(jù),挖掘用戶感興趣的關(guān)聯(lián)大數(shù)據(jù)。陳小彪[4]等人對網(wǎng)絡(luò)爬蟲技術(shù)原理及其運用進(jìn)行分解,可以分為數(shù)據(jù)抓取行為、數(shù)據(jù)儲存行為、信息提取行為、信息使用行為與信息刪除行為,借助此分類以探討各行為的法律性質(zhì)其刑法適用。郭嘉[5]等人提出新的大數(shù)據(jù)下面向網(wǎng)絡(luò)用戶資源的資源信息提取方法。對用戶歷史行為進(jìn)行分析,求用戶間相似度,獲取資源信息提取列表。邱云飛[6]等人提出一種基于Web挖掘技術(shù)以網(wǎng)上評論文本為挖掘?qū)ο螅瑢τ脩魝€人信息進(jìn)行自動提取以自動分析用戶行為的改進(jìn)方法。

1網(wǎng)絡(luò)爬蟲工具介紹

利用網(wǎng)絡(luò)爬蟲可以快速抓取網(wǎng)頁數(shù)據(jù),但在抓取數(shù)據(jù)的時候,不能過多向網(wǎng)頁發(fā)送請求,因為頻繁的抓取數(shù)據(jù)會給提供數(shù)據(jù)的服務(wù)器造成不良影響[7]。還需要注意,獲取到的數(shù)據(jù)在使用的時候是否涉及商業(yè)利益和法律問題。當(dāng)下使用最多的當(dāng)屬八爪魚采集器和WebScraper。

1.1八爪魚采集器

八爪魚采集器[8]是一款基于網(wǎng)頁數(shù)據(jù)的采集軟件,在使用上簡單易懂,實現(xiàn)的功能也很強(qiáng)大。利用八爪魚采集器可以方便將網(wǎng)頁中的數(shù)據(jù)按照一定規(guī)則轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),可以以Excel、CSV、HTML、JSON等文件的格式導(dǎo)出,也可以將其導(dǎo)出到數(shù)據(jù)庫中。八爪魚采集器中可以使用智能模式操作獲取數(shù)據(jù),主要的做法是將網(wǎng)址輸入到對應(yīng)的位置,設(shè)置完相應(yīng)的參數(shù),即可實現(xiàn)全自動的獲取數(shù)據(jù)操作。它也是目前中國國內(nèi)第一個一鍵方便快速獲取大數(shù)據(jù)的采集平臺。八爪魚采集器主要利用了人類的思維模式去配置相應(yīng)的流程,在操作習(xí)慣上也是能滿足用戶的需求。它主要提供自定義模式、向?qū)J健⒅悄苣J健⒑喴啄J剿姆N操作模式,如圖1所示,可以滿足不同用戶的不同需求。很多用戶都喜歡其中的簡易模式,因為操作者只需要選擇對應(yīng)的模板去設(shè)置相應(yīng)的參數(shù),即可方便快捷獲取想要的數(shù)據(jù),大大提高了獲取數(shù)據(jù)的效率。本文對數(shù)據(jù)的獲取采用的即是簡易模式。

1.2WebScraper

WebScraper[9]是一個輕量級的谷歌瀏覽器的爬蟲插件,對其他瀏覽器暫不適用。主要用來抓取谷歌瀏覽器中的網(wǎng)絡(luò)頁面中的數(shù)據(jù),并實現(xiàn)動態(tài)的獲取。用戶可以對WebScraper進(jìn)行相應(yīng)的參數(shù)配置,實現(xiàn)運行,將抓取到的數(shù)據(jù)以XML或CSV等格式保存下來。WebScraper可以實現(xiàn)對一般數(shù)據(jù)的爬取需求,也能滿足用戶的操作習(xí)慣,因此被廣大用戶所喜愛和使用[10]。

2利用網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)

2.1利用八爪魚采集器獲取用戶數(shù)據(jù)

本文主要利用八爪魚采集器的簡易模式進(jìn)行操作,采集新浪微博中的用戶信息,為網(wǎng)絡(luò)中用戶分類分析打下基礎(chǔ)。首先要下載八爪魚APP并注冊個人信息,然后利用注冊的信息進(jìn)行登錄。進(jìn)入登錄界面后,在首頁即可清楚的看到熱門采集模板,如天貓、京東、淘寶、今日頭條、微博網(wǎng)頁等。在這里選擇微博網(wǎng)頁選項,打開后看到內(nèi)置了如微博頭條、微博超話、微博熱搜榜、微博博文評論等13條規(guī)則,想要的數(shù)據(jù)信息基本涵蓋。本文獲取的是微博用戶信息,因此選擇“微博搜索博主”規(guī)則。“微博搜索博主”頁面包括了模板介紹、采集字段預(yù)覽、采集參數(shù)預(yù)覽、示例數(shù)據(jù)信息,方便用戶簡單快速上手。“采集字段預(yù)覽”里面包含了獲取的數(shù)據(jù)字段信息,如用戶名、用戶ID、標(biāo)簽、簡介、微博數(shù)等信息。設(shè)置完任務(wù)名、任務(wù)組、關(guān)鍵詞、翻頁次數(shù)等信息即可保存并啟動微博搜索博主規(guī)則。啟動本地采集后,網(wǎng)頁會按照設(shè)定的規(guī)則進(jìn)行數(shù)據(jù)的采集,中間可以隨時單擊“停止采集”按鈕以完成數(shù)據(jù)的采集。最后,在采集結(jié)束后,可以單擊“導(dǎo)出數(shù)據(jù)”按鈕將獲取到的數(shù)據(jù)按照指定格式導(dǎo)出到本地。具體操作流程圖和抓取到的數(shù)據(jù)

2.2利用WebScraper獲取用戶數(shù)據(jù)

2.2.1WebScraper使用步驟

由于要用到谷歌瀏覽器,因此電腦的運行內(nèi)存要足夠大,且網(wǎng)速要足夠好。在電腦上下載并安裝好谷歌瀏覽器,如果網(wǎng)絡(luò)足夠好可以到谷歌瀏覽器的網(wǎng)上應(yīng)用商店下載WebScraper,如果網(wǎng)絡(luò)狀況不夠好,也可以到網(wǎng)絡(luò)上搜索并下載。下載之后要保存有一個.crx的文件。打開谷歌瀏覽器,在右上角找到三個點,打開找到更多工具里面的擴(kuò)展程序,將頁面中右上角的開發(fā)者模式按鈕打開,將下載并解壓好的WebScraper文件直接拖拽到頁面中,即可完成插件的部署和安裝。

2.2.2WebScraper獲取數(shù)據(jù)過程

打開需要獲取數(shù)據(jù)的頁面,單擊鼠標(biāo)右鍵,在彈出的對話框中選擇“檢查”選項,打開調(diào)試窗口,為便于后續(xù)的抓取操作和查看,將調(diào)試工具欄放在窗口的最下方。單擊菜單的最后一項“WebScraper”,顯示三個子菜單,分別為Sitemaps、Sitemap、Createnewsitemap。單擊第三個子菜單Createnewsitemap,選擇CreateSitemap,創(chuàng)建一個新網(wǎng)站地圖,將要獲取的頁面地址URL輸入到對應(yīng)位置,并設(shè)置一個英文名稱。未添加節(jié)點的網(wǎng)站地圖只有一個根節(jié)點,因此要為其添加新的選擇器,并給該選擇器取好名稱,因為要抓取的是元素節(jié)點,因此要將Type設(shè)置為“Element”,由于根節(jié)點下還有元素、元素屬性、文本等節(jié)點的類型,因此設(shè)置完其他選項,在頁面中框選的是一整個條目,里面包含多個元素。接下來再在選擇器里面添加元素,設(shè)置相應(yīng)的屬性,框選相應(yīng)的位置,即可完成抓取設(shè)置。在添加的元素中屬于文本類型的可以進(jìn)行預(yù)覽,查看獲取到的數(shù)據(jù)。對于完成的選擇器可以再次進(jìn)行編輯和刪除操作,也可以進(jìn)行抓取數(shù)據(jù)的預(yù)覽。最后將抓取的數(shù)據(jù)以.xlsx的格式導(dǎo)出并保存到本地。具體操作流程及抓取到的數(shù)據(jù)。

3利用Excel對獲取的數(shù)據(jù)進(jìn)行整理并分析

以上兩種方式獲取到的數(shù)據(jù)都可以以.xlsx的格式導(dǎo)出到本地,對得到的數(shù)據(jù)預(yù)先用人工篩選的方式進(jìn)行整理,刪除掉無用或者重復(fù)的數(shù)據(jù),對剩余較完整的數(shù)據(jù)統(tǒng)一保存到一個文檔中,可對相應(yīng)數(shù)據(jù)進(jìn)行分析。本文利用整理好的1300條數(shù)據(jù),對微博用戶關(guān)注情況、粉絲情況及微博數(shù)量進(jìn)行分析,經(jīng)過對以上圖表進(jìn)行分析可以得知,微博中跟關(guān)鍵詞“美食”有關(guān)的大多數(shù)用戶關(guān)注了較少的人,擁有的粉絲數(shù)也較少,發(fā)布的微博數(shù)量也不多。

4結(jié)束語

當(dāng)下互聯(lián)網(wǎng)技術(shù)的發(fā)展速度飛快,分析網(wǎng)絡(luò)中的大量數(shù)據(jù)對各行各業(yè)的運轉(zhuǎn)產(chǎn)生一定的積極作用,因此利用搜索引擎技術(shù)收集網(wǎng)絡(luò)中的數(shù)據(jù)顯得尤為重要。本文利用了當(dāng)下最熱門的網(wǎng)絡(luò)爬蟲工具八爪魚采集器和WebScraper詳細(xì)介紹了抓取微博中用戶信息的過程,為后續(xù)分析和研究用戶的行為打下基礎(chǔ),也為其他行業(yè)做好網(wǎng)絡(luò)信息安全提供技術(shù)支持。

參考文獻(xiàn):

[1]秦雅琴,馬玲玲.網(wǎng)絡(luò)爬蟲技術(shù)在交通信息獲取中的應(yīng)用綜述[J].武漢理工大學(xué)學(xué)報(交通科學(xué)與工程版),2020,44(03):456-461.

[2]張立鑒.淺談網(wǎng)絡(luò)爬蟲的網(wǎng)站信息采集技術(shù)[J].信息記錄材料,2021,22(07):199-200.

[3]劉多林,呂苗.基于網(wǎng)絡(luò)爬蟲結(jié)合關(guān)聯(lián)大數(shù)據(jù)的用戶信息提取[J].計算機(jī)仿真,2021,38(08):482-486.

[4]陳小彪,儲虎.論網(wǎng)絡(luò)爬蟲行為的刑法應(yīng)對[J].河南警察學(xué)院學(xué)報,2020,29(05):83-92.

[5]郭嘉,郭曉峰,沈建京.關(guān)于大數(shù)據(jù)中用戶資源信息提取仿真研究[J].計算機(jī)仿真,2018,35(07):414-417.

[6]邱云飛,王雪,劉大有,等.基于Web評論的用戶個人信息提取方法研究[J].計算機(jī)應(yīng)用與軟件,2012,29(05):44-47+72.

[7]吳虎.基于網(wǎng)絡(luò)爬蟲技術(shù)的企業(yè)社交媒體情報獲取分析[D].黑龍江大學(xué),2017.

[8]吳濤.巧用八爪魚采集器開展政務(wù)公開審計[J].審計月刊,2019(11):32-33.

[9]魏少鵬.基于Chrome瀏覽器插件的爬蟲系統(tǒng)[D].東華大學(xué),2016.

[10]KOVIAZINMIKHAIL.可視化網(wǎng)絡(luò)爬蟲發(fā)展的開發(fā)[D].哈爾濱工業(yè)大學(xué),2020.

作者:李新煥 單位:江西開放大學(xué)江西工程職業(yè)學(xué)院

友情鏈接
亚洲欧美日韩成人_亚洲精品国产精品国产自_91精品国产综合久久国产大片 _女同久久另类99精品国产
欧美性猛交xxxx乱大交退制版 | 亚洲国产日韩一区二区| 欧美精品成人一区二区在线观看 | 亚洲欧美日韩精品久久奇米色影视 | 国产精品视频免费观看| 欧美大片va欧美在线播放| 国产精品色婷婷久久58| 亚洲欧美激情视频| 亚洲综合社区| 亚洲精品乱码久久久久久日本蜜臀 | 国模一区二区三区| 欧美日韩国产综合久久| 久久午夜影视| 午夜精品久久久久久久99热浪潮| 亚洲精品一区二区三区不| 中文久久精品| 亚洲国产高清在线观看视频| 国产亚洲精品v| 国产精品国产| 男女精品网站| 久久激情视频久久| 亚洲欧美综合网| 一区二区三区.www| 亚洲精美视频| 亚洲一区在线观看视频 | 国产伦精品一区二区三区四区免费 | 欧美日韩国产美女| 老司机午夜精品视频| 久久精品国产精品| 亚洲欧美在线观看| 亚洲在线成人| 亚洲一级黄色片| 一区二区三区产品免费精品久久75| 亚洲国产日韩精品| 性娇小13――14欧美| 亚洲综合不卡| 亚洲久久成人| 激情成人亚洲| 国产一区二区三区高清在线观看| 欧美日韩在线高清| 久久综合九色| 性做久久久久久久久| 一道本一区二区| 久久成人羞羞网站| 亚洲一区二区精品在线| 亚洲黄网站在线观看| 亚洲国产成人av| 欧美午夜电影在线| 欧美精品久久久久久久免费观看| 欧美刺激午夜性久久久久久久| 蜜臀a∨国产成人精品| 免费高清在线一区| 欧美gay视频| 久久久国产午夜精品| 欧美在线观看天堂一区二区三区| 欧美一区二区免费观在线| 午夜精品久久久久久99热软件| 久久大逼视频| 久久婷婷国产综合国色天香| 老司机一区二区| 久久综合九色| 欧美国产亚洲另类动漫| 男人插女人欧美| 欧美成人首页| 欧美连裤袜在线视频| 欧美视频专区一二在线观看| 国产精品久久久久毛片大屁完整版| 国产精品久久久91| 国产精品国产三级国产专播品爱网| 国产精品久久午夜夜伦鲁鲁| 国产美女一区二区| 国产日韩欧美亚洲一区| 国产欧美精品日韩区二区麻豆天美 | 新狼窝色av性久久久久久| 午夜在线观看欧美| 久久精品视频在线| 免费成人高清视频| 欧美精品一区二区高清在线观看| 欧美日韩一区二区免费视频| 国产精品日韩| 在线观看国产成人av片| 9l视频自拍蝌蚪9l视频成人| 午夜一级在线看亚洲| 亚洲电影成人| 在线一区二区三区四区| 欧美一区二区网站| 久久精品国产一区二区三区免费看 | 亚洲免费高清| 亚洲欧美国产va在线影院| 久久久伊人欧美| 日韩一区二区高清| 欧美伊久线香蕉线新在线| 欧美1区2区| 国产精品久久久999| 黄色影院成人| 亚洲午夜av在线| 91久久夜色精品国产网站| 亚洲免费中文| 免费亚洲一区| 国产精品一区二区三区四区五区 | 欧美片第1页综合| 国产日韩欧美精品在线| 亚洲国产精品一区二区www在线 | 亚洲精品一线二线三线无人区| 午夜免费日韩视频| 日韩一级黄色大片| 亚洲欧美一区二区在线观看| 亚洲欧美资源在线| 欧美激情中文字幕一区二区| 国产精品美女主播| 亚洲国产精品一区二区第四页av| 午夜亚洲视频| 亚洲伊人第一页| 免费视频亚洲| 国产一区日韩二区欧美三区| 一区二区三区欧美激情| 亚洲日本乱码在线观看| 久久久亚洲欧洲日产国码αv| 国产精品三上| 99re在线精品| 亚洲欧洲精品一区二区三区 | 欧美日韩在线高清| 亚洲国产岛国毛片在线| 亚洲国产三级网| 欧美自拍偷拍| 性久久久久久久久| 欧美三区在线视频| 亚洲国产精品va在线观看黑人 | 一本色道久久加勒比88综合| 日韩亚洲国产欧美| 免费观看日韩av| 黄色日韩网站| 欧美一区二区三区四区在线观看| 中文欧美日韩| 亚洲美女免费视频| 美女诱惑一区| 国产在线麻豆精品观看| 亚洲免费中文| 亚洲天天影视| 亚洲国产高清高潮精品美女| 亚洲精品社区| 蜜月aⅴ免费一区二区三区 | 亚洲欧美一区二区激情| 99riav国产精品| 欧美成年人网站| 黑人操亚洲美女惩罚| 国产精品久久久久久久午夜片| 国产精品国产成人国产三级| 日韩亚洲一区二区| 亚洲免费av电影| 欧美岛国在线观看| 亚洲福利一区| 亚洲欧洲一区二区三区久久| 欧美成人69av| 亚洲国产欧洲综合997久久| 亚洲国产经典视频| 亚洲综合日韩在线| 久久三级福利| 国产日韩精品一区二区浪潮av| 午夜精品久久久久久久久久久久久| 在线午夜精品自拍| 亚洲一区久久久| 欧美日本免费| a4yy欧美一区二区三区| 亚洲性图久久| 国产精品毛片大码女人| 亚洲午夜日本在线观看| 亚洲一级免费视频| 国产精品国产三级国产| 亚洲伊人伊色伊影伊综合网| 欧美在线啊v| 国内精品福利| 91久久久一线二线三线品牌| 欧美黄污视频| 夜夜精品视频| 亚洲欧美影音先锋| 国产亚洲激情| 亚洲福利视频网| 欧美寡妇偷汉性猛交| 一本一本久久a久久精品牛牛影视| 欧美在线一二三| 亚洲激情啪啪| 久久精品国产77777蜜臀| 亚洲人久久久| 欧美在线看片a免费观看| 亚洲夫妻自拍| 午夜精品偷拍| 亚洲区中文字幕| 欧美在线一二三| 日韩视频免费观看高清在线视频| 久久国产婷婷国产香蕉| 亚洲精品中文字| 久久婷婷成人综合色| 中日韩高清电影网| 免费看成人av| 欧美一区二区视频在线观看2020| 欧美片第1页综合| 亚洲第一主播视频| 国产伦精品一区二区三区视频孕妇| 日韩系列欧美系列|