時(shí)間:2023-01-30 22:54:25
引言:易發(fā)表網(wǎng)憑借豐富的文秘實(shí)踐,為您精心挑選了九篇數(shù)據(jù)挖掘技術(shù)應(yīng)用范例。如需獲取更多原創(chuàng)內(nèi)容,可隨時(shí)聯(lián)系我們的客服老師。
數(shù)據(jù)挖掘(DataMining,DM),是隨著數(shù)據(jù)庫(kù)和人工智能發(fā)展起來(lái)的新興的信息處理技術(shù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程,其主要特點(diǎn)是對(duì)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘是一門涉及面很廣的交叉性新興學(xué)科,涉及到數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等領(lǐng)域。
2、數(shù)據(jù)挖掘技術(shù)
2.1關(guān)聯(lián)規(guī)則方法
關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,所挖掘出的關(guān)聯(lián)規(guī)則量往往非常巨大,但是。并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,對(duì)這些關(guān)聯(lián)規(guī)則進(jìn)行有效的評(píng)價(jià)。篩選出用戶真正感興趣的。有意義的關(guān)聯(lián)規(guī)則尤為重要。
2.2分類和聚類方法
分類就是假定數(shù)據(jù)庫(kù)中的每個(gè)對(duì)象屬于一個(gè)預(yù)先給定的類。從而將數(shù)據(jù)庫(kù)中的數(shù)據(jù)分配到給定的類中。而聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異。分類和聚類的區(qū)別在于分類事先知道類別數(shù)和各類的典型特征,而聚類則事先不知道。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià)。
2.3數(shù)據(jù)統(tǒng)計(jì)方法
使用這些方法一般首先建立一個(gè)數(shù)據(jù)模型或統(tǒng)計(jì)模型,然后根據(jù)這種模型提取有關(guān)的知識(shí)。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法。貝葉斯推理、回歸分析、方差分析等技術(shù)是許多挖掘應(yīng)用中有力的工具之一。
2.4神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。這些優(yōu)點(diǎn)使得神經(jīng)元網(wǎng)絡(luò)非常適合解決數(shù)據(jù)挖掘的問題。因此近年來(lái)越來(lái)越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模型主要分3大類;用于分類、預(yù)測(cè)和模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型;用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;用于聚類的自組織映射方法。新晨
2.5決策樹方法
決策樹學(xué)習(xí)是一種通過逼近離散值日標(biāo)函數(shù)的方法,把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類實(shí)例。葉子結(jié)點(diǎn)即為實(shí)例所屬的分類,利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫(kù)中具有最大信息量的字段。建立決策樹的一個(gè)結(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的分支;在每個(gè)分枝子集中,重復(fù)建立樹的下層結(jié)點(diǎn)和分支的過程,即可建立決策樹。
隨著科技的進(jìn)一步發(fā)展,已經(jīng)帶動(dòng)著各大領(lǐng)域的創(chuàng)新和發(fā)展。而我國(guó)在近年來(lái),城市信息化的普及也在不斷推進(jìn),網(wǎng)絡(luò)技術(shù)的改革和發(fā)展也顯得格外重要。而特別很多企業(yè)對(duì)于自身的信息和數(shù)據(jù)儲(chǔ)存、共享以及處理都格外注重,要求技術(shù)本身要包含安全性、便捷性以及可靠性。,而是在大數(shù)據(jù)提出后,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一種新的主流技術(shù),而研究數(shù)據(jù)挖掘技術(shù)的理念、方法以及應(yīng)用領(lǐng)域,將對(duì)我國(guó)工程施工領(lǐng)域的未來(lái)帶來(lái)更多的機(jī)遇和挑戰(zhàn)。
關(guān)鍵詞:
大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)分析和研究運(yùn)用數(shù)據(jù)挖掘技術(shù),也被稱為數(shù)字處理技術(shù),顧名思義,就是對(duì)于目前各大企業(yè)的內(nèi)部數(shù)據(jù),進(jìn)行整理、調(diào)整、挖掘?qū)嵤┮约霸u(píng)估等一系列處理操作,其主要的目標(biāo)是保證全局?jǐn)?shù)據(jù)都能夠得到充分的優(yōu)化。而大數(shù)據(jù)則是區(qū)分于以往抽樣調(diào)查的方法,而是對(duì)于全局?jǐn)?shù)據(jù)進(jìn)行分析,從而保證分析的全面以及完成。而大數(shù)據(jù)技術(shù)也包含4個(gè)優(yōu)點(diǎn),即高數(shù)量、高速度、多元化以及高價(jià)值。而筆者將通過本文,就大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用進(jìn)行分析和探討。
1相關(guān)概念的簡(jiǎn)介
1.1大數(shù)據(jù)的概念關(guān)于大數(shù)據(jù)的理念提出,可以追溯到麥肯錫研究院于2011年的《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》,其中闡述的觀念就涵蓋數(shù)據(jù)方面,即數(shù)據(jù)已經(jīng)融入到了人們的日常生活中,也是生產(chǎn)運(yùn)作的一個(gè)重要因素。而大數(shù)據(jù)的運(yùn)用,對(duì)于消費(fèi)以及生產(chǎn)水平都是一種有效的提升提升,根據(jù)美國(guó)曾經(jīng)的《大數(shù)據(jù)研究和發(fā)展倡議》資料,截至2011年一年,全球總的數(shù)據(jù)就增加了1.8ZB,而進(jìn)行人均計(jì)算,相當(dāng)于每個(gè)人都具有至少200GB的數(shù)據(jù)資源,而且這一數(shù)據(jù)還在呈現(xiàn)出日益增長(zhǎng)的趨勢(shì),根據(jù)統(tǒng)計(jì)計(jì)算,這一數(shù)值將會(huì)按照約為50%/年的速度增長(zhǎng)。
1.2數(shù)據(jù)挖掘作為一個(gè)新型學(xué)科,數(shù)據(jù)挖掘技術(shù)源于20世紀(jì)的80年代,那時(shí)其效用與目前存在本質(zhì)差異,科學(xué)家最初研究大數(shù)據(jù),主要是用于一些人工智能技術(shù)的開發(fā)。簡(jiǎn)而言之,技術(shù)層面上,數(shù)據(jù)挖掘就是一個(gè)對(duì)數(shù)據(jù)進(jìn)行發(fā)掘創(chuàng)新的過程,即要求目標(biāo)數(shù)據(jù)具有隱蔽性、挖掘價(jià)值以及挖掘潛力,而且需要操作者在一堆冗雜的、隨機(jī)的、模糊的數(shù)據(jù)庫(kù)中進(jìn)行挖掘;而對(duì)于商業(yè)層面上來(lái)說(shuō),數(shù)據(jù)挖掘就是在一些大量的數(shù)據(jù)信息中獲得規(guī)律以及價(jià)值信息,從而為決策提供重要的知識(shí)憑據(jù)。
2數(shù)據(jù)挖掘的研究手段
對(duì)于數(shù)據(jù)挖掘而言,不同的研究手段將是其開展的重要基礎(chǔ),而研究手段的決定,主要需要依靠科學(xué)的計(jì)算為依據(jù),分析和對(duì)比數(shù)據(jù)中存在的一些不為人知的規(guī)則,然后通過研究手段的改變?nèi)?yīng)付不同的問題,對(duì)于實(shí)際操作來(lái)說(shuō),就是針對(duì)不同的數(shù)據(jù)找出不同的解決方法,而常見數(shù)據(jù)挖掘的研究手段主要可以分為四類,即聚類研究、分類和預(yù)測(cè)以及關(guān)聯(lián)研究。
2.1聚類研究將抽選的數(shù)據(jù)或者對(duì)象的庫(kù)進(jìn)行類似“分類”的聚類劃分,然后再將其中的相同或者相近的數(shù)據(jù)劃分為一個(gè)組類,由此建立起多個(gè)組類開展研究的過程。整個(gè)過程突出的是一種無(wú)知識(shí)基礎(chǔ)、無(wú)監(jiān)督管控的學(xué)習(xí)過程。而整個(gè)過程由于分類研究有本質(zhì)的差異,因?yàn)榫垲愌芯吭谑孪雀緹o(wú)法得到目標(biāo)的重要屬性數(shù)據(jù),而這種分析方法主要可以用于多個(gè)區(qū)域,例如心理、統(tǒng)計(jì)、醫(yī)藥、銷售以及數(shù)據(jù)識(shí)別等,而根據(jù)其隸屬度的取值,有能將其分為兩種研究方法,即硬聚類與模糊聚類,對(duì)于前者來(lái)說(shuō),就是將目標(biāo)按照影響標(biāo)準(zhǔn)進(jìn)行劃分,即目標(biāo)如果屬于某類,必定不屬于其他類;而對(duì)于后者來(lái)說(shuō),主要取決與隸屬度的取值不同。而劃分過程可能會(huì)將目標(biāo)劃分入多個(gè)聚類中。此外聚類的計(jì)算方法也能分為多種,即包含密度算法、層次算法、劃分算法、網(wǎng)格算法以及模型算法等等。
2.2分類與估測(cè)對(duì)于分類與數(shù)值估測(cè)來(lái)說(shuō),都是屬于是問題預(yù)測(cè)方式,其中前者要求估測(cè)各個(gè)類中的標(biāo)號(hào),這些標(biāo)號(hào)都是分散且無(wú)規(guī)律的,而估測(cè)方法可以采用函數(shù)模型,要求模型類型為連續(xù)值函數(shù)。分類估測(cè)作為數(shù)據(jù)挖掘的起始工作,主要需要反應(yīng)已經(jīng)獲知的訓(xùn)練數(shù)據(jù)庫(kù)的特點(diǎn),從而根據(jù)以上基礎(chǔ)完成其中對(duì)每一類的情況以及特點(diǎn)完成相應(yīng)的分類操作,而整個(gè)操作也是受到督促的,對(duì)于一般的分類算法可以有決策樹、粗糙集、貝葉斯、遺傳等算法,而估測(cè)主要是基于分類以及回歸基礎(chǔ),估測(cè)數(shù)據(jù)將來(lái)的動(dòng)向,即包含局勢(shì)外推、時(shí)間序列以及回歸分析幾類。
2.3關(guān)聯(lián)研究關(guān)聯(lián)研究是源于自然生物間微妙的關(guān)系,而某事情的發(fā)生和發(fā)展也會(huì)引發(fā)連鎖的事情發(fā)展,也就類似所謂“蝴蝶效應(yīng)”的定義。而關(guān)聯(lián)研究的研究目標(biāo)即是研究物與物之間的微妙關(guān)系,包含一些依賴關(guān)系等等,從而找出其中的規(guī)則,基于規(guī)則,分析將來(lái)的動(dòng)向。以購(gòu)物為例,分析購(gòu)物者的心理規(guī)律以及習(xí)慣,可以從他們對(duì)于購(gòu)物的一系列表現(xiàn),例如購(gòu)物籃的物品類型、放置規(guī)律、購(gòu)物消費(fèi)理念、購(gòu)物環(huán)境需求等等,而掌握這些規(guī)律,足以讓一個(gè)銷售企業(yè)獲得巨大的消費(fèi)市場(chǎng)以及商機(jī)。
3大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘的運(yùn)用
3.1數(shù)據(jù)準(zhǔn)備準(zhǔn)備流程需要依附于研究者已經(jīng)建立起長(zhǎng)期且豐富數(shù)據(jù)資源的數(shù)據(jù)庫(kù),而根據(jù)這些無(wú)規(guī)則的原始數(shù)據(jù)進(jìn)行相應(yīng)的挖掘前的準(zhǔn)備的工作,例如數(shù)據(jù)的處理、擇取、清除、推敲以及轉(zhuǎn)變,作為基礎(chǔ)的流程,數(shù)據(jù)準(zhǔn)備操作在整個(gè)流程中起到重要的基礎(chǔ)作用。
3.2數(shù)據(jù)挖掘開展數(shù)據(jù)挖掘操作,需要根據(jù)挖掘?qū)ο蟮那闆r擇選最優(yōu)的計(jì)算方法,從而獲取其中的規(guī)律性,例如對(duì)應(yīng)采用決策樹算法、分類算法、神經(jīng)網(wǎng)絡(luò)算法以及Apriori算法等。
3.3數(shù)據(jù)挖掘的模式評(píng)估研究模式評(píng)估的對(duì)象主要是通過數(shù)據(jù)挖掘處理過程數(shù)據(jù),而評(píng)估流程是了解、研究且取得其中數(shù)據(jù)的規(guī)則,然后對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)變“翻譯”成通俗易懂的語(yǔ)言,供人們?nèi)パ芯亢退伎肌?/p>
3.4數(shù)據(jù)挖掘的知識(shí)應(yīng)用知識(shí)應(yīng)用是數(shù)據(jù)挖掘的最后一步,通常知識(shí)運(yùn)用就是一種現(xiàn)實(shí)運(yùn)用的過程,通過數(shù)據(jù)準(zhǔn)備、挖掘、研究評(píng)估,最后將結(jié)果數(shù)據(jù)或者規(guī)律用于現(xiàn)實(shí)中,從而體現(xiàn)數(shù)據(jù)的本身的價(jià)值,這就是知識(shí)應(yīng)用的內(nèi)涵。
4大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘的運(yùn)用
4.1市場(chǎng)營(yíng)銷方面市場(chǎng)營(yíng)銷行業(yè)已經(jīng)是目前數(shù)據(jù)挖掘采用最多的行業(yè),數(shù)據(jù)挖掘的作用主要體現(xiàn)在的對(duì)于消費(fèi)者群體的消費(fèi)習(xí)慣以及行為進(jìn)行解析,從而改變銷售方法,提升產(chǎn)品的銷售量,此外,除了一些購(gòu)物消費(fèi)以外,數(shù)據(jù)挖掘技術(shù)以及拓展到了各大金融行業(yè),例如保險(xiǎn)行業(yè)、銀行行業(yè)以及電子商務(wù)行業(yè)等等。例如:在市場(chǎng)營(yíng)銷方面,采用數(shù)據(jù)挖掘中的聚類研究,即客戶一系列無(wú)規(guī)則、無(wú)意識(shí)的行為數(shù)據(jù),對(duì)他們進(jìn)行識(shí)別,即根據(jù)客戶的忠誠(chéng)度、消費(fèi)意識(shí)進(jìn)行分類,幫助企業(yè)尋找其中的潛在客戶以及固定客戶群。
4.2數(shù)據(jù)挖掘的科學(xué)分析科學(xué)本身就是一個(gè)尋找規(guī)律、發(fā)現(xiàn)規(guī)律以及利用規(guī)律的過程,而且任何科學(xué)研究都是需要基于數(shù)據(jù)作為基礎(chǔ),所以數(shù)據(jù)挖掘?qū)τ诳茖W(xué)領(lǐng)域也具有重要的意義和價(jià)值,特別是針對(duì)一些未知的事物、領(lǐng)域或者知識(shí),通過數(shù)據(jù)挖掘可以有效展示數(shù)據(jù)規(guī)則。例如對(duì)于太空行星的分析,遺傳基因DNA的數(shù)據(jù)以及遺傳規(guī)律等。
4.3制造業(yè)與其他行業(yè)不同,制造業(yè)運(yùn)用數(shù)據(jù)挖掘的目的主要是產(chǎn)品質(zhì)量檢查方面,例如研究產(chǎn)品的數(shù)據(jù),找出其中規(guī)則。分析整體生產(chǎn)流程,解析其中過程,找出影響生產(chǎn)質(zhì)量以及效率的問題,然后通過對(duì)這些問題進(jìn)行解決,提升企業(yè)經(jīng)濟(jì)效益。對(duì)于制造業(yè)而言,數(shù)據(jù)挖掘運(yùn)用主要體現(xiàn)在決策方面,即首先通過數(shù)據(jù)篩選,獲取有用的知識(shí)和數(shù)據(jù),然后采用決策樹算法,統(tǒng)計(jì)決策,然后選擇其中正確的決策,即像根據(jù)目前產(chǎn)品的流行情況,預(yù)測(cè)目前生產(chǎn)產(chǎn)品的受歡迎度,然后決策生產(chǎn)的時(shí)間以及周期。
4.4教育方面對(duì)于教育行業(yè)來(lái)說(shuō),最重要的除了教師的教學(xué)方法以外,學(xué)生的學(xué)習(xí)情況、心理動(dòng)向以及教學(xué)評(píng)估都是十分重要的,采用數(shù)據(jù)挖掘技術(shù),則可以有效將這些數(shù)據(jù)通過分類、篩選以及處理,得出有效的數(shù)據(jù)規(guī)則,供學(xué)校教學(xué)改革時(shí)進(jìn)行參考。例如:教學(xué)質(zhì)量評(píng)估數(shù)據(jù)挖掘模塊的開發(fā),即將教學(xué)質(zhì)量相關(guān)的項(xiàng)目通過QSLSevrer進(jìn)行整合和存儲(chǔ),例如教學(xué)準(zhǔn)備、教學(xué)內(nèi)容、教學(xué)方式以及教學(xué)態(tài)度等,最后學(xué)生可以進(jìn)行自行瀏覽并且完成評(píng)估,而評(píng)估結(jié)果則會(huì)上傳系統(tǒng)進(jìn)行最后通過數(shù)據(jù)挖掘,篩選其中有用的信息,再通過Apr1ori算法挖掘其中關(guān)聯(lián)規(guī)律。
5結(jié)語(yǔ)
雖然數(shù)據(jù)挖掘技術(shù)不是一項(xiàng)新興的技術(shù),但是其還具有較大的研究?jī)r(jià)值與運(yùn)用前景,特別是在特殊領(lǐng)域的運(yùn)用,對(duì)于一系列數(shù)據(jù)進(jìn)行科學(xué)冗雜的處理,然后分析其中規(guī)則價(jià)值,可以有效提升各大行業(yè)的經(jīng)濟(jì)效益。
參考文獻(xiàn)
[1]趙倩倩,程國(guó)建,冀乾宇,戎騰學(xué).大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J].電腦知識(shí)與技術(shù),2014,11(33):7831-7833.
[2]韓英.淺析大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與精細(xì)管理[J].成都航空職業(yè)技術(shù)學(xué)院學(xué)報(bào),2013,12(04):63-71.
關(guān)鍵詞數(shù)據(jù)挖掘;Web數(shù)據(jù)挖掘;相關(guān)技術(shù)
引言
隨著Internet 的進(jìn)一步發(fā)展和完善,各種基于Internet的應(yīng)用業(yè)務(wù)也如雨后春筍般的發(fā)展起來(lái),例如網(wǎng)上商店、網(wǎng)上銀行、遠(yuǎn)程教育、遠(yuǎn)程醫(yī)療等。我們應(yīng)該看到Internet在給我們帶來(lái)機(jī)遇的同時(shí)也帶來(lái)了挑戰(zhàn),它使得WWW 上的一些主要工作, 例如Web 站點(diǎn)設(shè)計(jì)、Web 服務(wù)設(shè)計(jì)、Web 站點(diǎn)的導(dǎo)航設(shè)計(jì)、電子商務(wù)等工作變得更為復(fù)雜更為繁重。對(duì)于網(wǎng)站經(jīng)營(yíng)方來(lái)說(shuō),他們需要更好的自動(dòng)輔助設(shè)計(jì)工具, 可以根據(jù)用戶的訪問興趣、訪問頻度、訪問時(shí)間動(dòng)態(tài)的調(diào)整頁(yè)面結(jié)構(gòu),改進(jìn)服務(wù), 開展有針對(duì)性的電子商務(wù)以更好的滿足訪問者的需求。解決這種需求的一個(gè)有利的工具就是Web 數(shù)據(jù)挖掘。
1. Web 數(shù)據(jù)挖掘概述
Web挖掘是一項(xiàng)綜合技術(shù),涉及Web、數(shù)據(jù)挖掘、計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)等多個(gè)領(lǐng)域。Web挖掘就是從Web 文檔、Web活動(dòng)中抽取感興趣的、潛在的有用模式和隱藏信息。Web 挖掘是指從大量Web文檔結(jié)構(gòu)和使用的集合C中發(fā)現(xiàn)隱含的模式p。如果將C看作輸入,p看作輸出,那么Web挖掘的過程就是從輸入到輸出的一個(gè)映射ξ:Cp
Web挖掘從數(shù)據(jù)挖掘發(fā)展而來(lái),因此其定義與我們熟知的數(shù)據(jù)挖掘定義相類似,都是在對(duì)大量的數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,作出歸納性的推理,預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),作出正確的決策的過程。但是對(duì)Web 進(jìn)行有效的資源和知識(shí)挖掘面臨極大的挑戰(zhàn):(1)對(duì)有效的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘而言,Web 似乎太龐大了。(2)Web頁(yè)面的復(fù)雜性高于任何傳統(tǒng)的文本文件。(3) Web是一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源。(4) Web上的信息只有很小的一部分是相關(guān)的或有用的。這些挑戰(zhàn)推動(dòng)了如何有效地發(fā)現(xiàn)和利用Internet 的資源的研究工作。
1.1 與傳統(tǒng)的數(shù)據(jù)挖掘相比較
1.1.1 數(shù)據(jù)源具有很強(qiáng)的動(dòng)態(tài)性。
1.1.2 挖掘目的的模糊性。
1.1.3 數(shù)據(jù)類型的多態(tài)性。
1.1.4 數(shù)據(jù)信息的分布性、多維性。
1.2 Web 數(shù)據(jù)的特點(diǎn)
1.2.1 數(shù)據(jù)量巨大
Internet把分布于世界不同位置的電腦(服務(wù)器)連接了起來(lái),每個(gè)電腦上都存有豐富的數(shù)據(jù),這些數(shù)據(jù)涉及各種不同的行業(yè)和領(lǐng)域,又由于連接于Internet 的電腦數(shù)量非常巨大。
1.2.2 異構(gòu)數(shù)據(jù)庫(kù)環(huán)境
每一個(gè)Web站點(diǎn)都可以看作是一個(gè)數(shù)據(jù)源,由于各站點(diǎn)是相互獨(dú)立的, 之間除了可以互相訪問之外并沒有任何關(guān)系,所以每個(gè)站點(diǎn)之間的信息及信息組織方式都是不相同的,這就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)環(huán)境。
1.2.3半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)
Web上的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)不同之處還在于傳統(tǒng)數(shù)據(jù)庫(kù)都有一定的模型,可以根據(jù)數(shù)據(jù)模型來(lái)對(duì)具體的數(shù)據(jù)進(jìn)行描述,而Web 站點(diǎn)中的數(shù)據(jù)不存在統(tǒng)一的模型,各站點(diǎn)都是獨(dú)自設(shè)計(jì),并且站點(diǎn)中的數(shù)據(jù)是處于不停變化之中的。
2.Web數(shù)據(jù)挖掘相關(guān)技術(shù)
Web 挖掘應(yīng)用非常廣泛,對(duì)Web挖掘相關(guān)技術(shù)的研究也很多,針對(duì)上述不同類別的Web 挖掘,有不同的相關(guān)技術(shù),下面分別介紹。一般地,Web挖掘可以分為三類:Web 內(nèi)容挖掘(Web content mining)、Web 結(jié)構(gòu)挖掘(Web structure mining)、和Web 使用模式的挖掘(Web usage mining) 。
2.1技術(shù)分類
2.1.1Web內(nèi)容挖掘
Web內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取知識(shí)的過程。主要有兩種策略:直接挖掘文檔的內(nèi)容,或在其它工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。采用第一種策略的有針對(duì)Web 的查詢語(yǔ)言WebLOG,利用啟發(fā)式規(guī)則來(lái)尋找個(gè)人主頁(yè)信息的AHOY等。采用第二種策略的方法主要是對(duì)搜索引擎的查詢結(jié)果進(jìn)行進(jìn)一步的處理,得到更為精確和有用的信息。屬于該類的有WebSQL,及對(duì)搜索引擎的返回結(jié)果進(jìn)行聚類的技術(shù)等。
2.1.2 Web 結(jié)構(gòu)挖掘
Web 結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。由于文檔之間的互連WWW能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對(duì)頁(yè)面進(jìn)行排序發(fā)現(xiàn)重要頁(yè)面。這方面的代表有PageRank〗和CL EVER,此外,在多層次Web數(shù)據(jù)倉(cāng)庫(kù)(MLDB)中也利用了頁(yè)面的鏈接結(jié)構(gòu)。
2.1.3 Web 使用挖掘
Web使用挖掘的主要目標(biāo)是從Web 的訪問記錄中抽取感興趣的模式。WWW 中每個(gè)服務(wù)器保留了訪問日志,記錄關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)。
2.2 Web 數(shù)據(jù)挖掘研究領(lǐng)域及發(fā)展
2.2.1 Web 數(shù)據(jù)挖掘的研究領(lǐng)域類型根據(jù)對(duì)Web 數(shù)據(jù)的感興趣程度不同,Web 挖掘一般可以分為三類: 網(wǎng)絡(luò)內(nèi)容挖掘(Web Content mining) 、網(wǎng)絡(luò)結(jié)構(gòu)挖掘(Web structure mining) 、網(wǎng)絡(luò)用法挖掘(Web usage Mining)
2.2.2 網(wǎng)絡(luò)內(nèi)容挖掘網(wǎng)絡(luò)信息內(nèi)容是由文本、圖像、音頻、視頻、元數(shù)據(jù)等形式的數(shù)據(jù)組成的。網(wǎng)絡(luò)內(nèi)容挖掘就是一個(gè)從網(wǎng)絡(luò)信息內(nèi)容中發(fā)現(xiàn)有用信息的過程。由于網(wǎng)絡(luò)信息內(nèi)容有很多是多媒體數(shù)據(jù), 因此網(wǎng)絡(luò)內(nèi)容挖掘也將是一種多媒體數(shù)據(jù)挖掘形式。
2.2.3 網(wǎng)絡(luò)結(jié)構(gòu)挖掘網(wǎng)絡(luò)結(jié)構(gòu)挖掘就是挖掘Web潛在的鏈接結(jié)構(gòu)模式。通過分析一個(gè)網(wǎng)頁(yè)鏈接和被鏈接數(shù)量以及對(duì)象來(lái)建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁(yè)歸類,并且由此可以獲得有關(guān)不同網(wǎng)頁(yè)間相似度及關(guān)聯(lián)度的信息。網(wǎng)絡(luò)結(jié)構(gòu)挖掘有助于用戶找到相關(guān)主題的權(quán)威站點(diǎn)。
2.2.4網(wǎng)絡(luò)用法挖掘網(wǎng)絡(luò)內(nèi)容挖掘和網(wǎng)絡(luò)結(jié)構(gòu)挖掘的挖掘?qū)ο笫蔷W(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘面對(duì)的則是在用戶和網(wǎng)絡(luò)交互的過程中抽取出來(lái)的第二手?jǐn)?shù)據(jù),包括網(wǎng)絡(luò)服務(wù)器訪問記錄、服務(wù)器日志記錄、瀏覽器日志記錄、用戶簡(jiǎn)介、注冊(cè)信息、用戶對(duì)話或交易信息、用戶提問方式等。通過網(wǎng)絡(luò)用法挖掘,可以了解用戶的網(wǎng)絡(luò)行為數(shù)據(jù)所具有的意義。
2.3 Web數(shù)據(jù)挖掘的四個(gè)步驟
2.3.1查找資源:任務(wù)是從目標(biāo)Web 文檔中得到數(shù)據(jù)。
2.3.2信息選擇和預(yù)處理:任務(wù)是從取得的Web資源中剔除無(wú)用信息和將信息進(jìn)行必要的整理。2.3.3模式發(fā)現(xiàn):自動(dòng)進(jìn)行模式發(fā)現(xiàn)。可以在同一個(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行。
2.3.4模式分析: 驗(yàn)證、解釋上一步驟產(chǎn)生的模式。
3. Web數(shù)據(jù)挖掘的應(yīng)用
3.1 Web挖掘在搜索引擎方面的應(yīng)用
通過對(duì)網(wǎng)頁(yè)內(nèi)容的挖掘,可以實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)的聚類和分類,實(shí)現(xiàn)網(wǎng)絡(luò)信息的分類瀏覽與檢索。運(yùn)用Web挖掘技術(shù)改進(jìn)關(guān)鍵詞加權(quán)算法,提高網(wǎng)絡(luò)信息的標(biāo)引準(zhǔn)確度, 改善檢索效果。參與搜索服務(wù)市場(chǎng)的有多家實(shí)力企業(yè),如Google、雅虎(Yahoo!) 及微軟(Microsoft) 等巨頭企業(yè), 以及若干規(guī)模較小但有特定市場(chǎng)區(qū)隔或技術(shù)者如dTSearch、Copernic 等Google 提供更多的技術(shù),會(huì)自動(dòng)找尋常用的字詞,盡量縮短搜索時(shí)間,提高效率。
3.2Web挖掘在電子商務(wù)方面的應(yīng)用
Web挖掘這方面的應(yīng)用可以為企業(yè)更有效的確認(rèn)目標(biāo)市場(chǎng)、改進(jìn)決策獲得更大的競(jìng)爭(zhēng)優(yōu)勢(shì)提供幫助,從中可得到商家用于特定消費(fèi)群體或個(gè)體進(jìn)行定向營(yíng)銷的決策信息。電子商務(wù)方面的Web挖掘功能主要是如下幾個(gè)方面:首先,客戶分類和客戶聚類。對(duì)Web 的客戶訪問信息進(jìn)行挖掘,對(duì)客戶進(jìn)行分類分析。應(yīng)用聚類分析對(duì)客戶進(jìn)行分組, 并且分析組中客戶的共同特征, 這樣就可以讓商家更好了解自己的客戶, 向客戶提供更有針對(duì)性的服務(wù)。其次是找到潛在的客戶。在對(duì)Web 的客戶訪問信息的挖掘中, 利用分類技術(shù)可在因特網(wǎng)上找到未來(lái)的潛在客戶。最后保留客戶的駐留時(shí)間, 對(duì)于客戶而言,在網(wǎng)上每個(gè)銷售商對(duì)于客戶來(lái)說(shuō)都是一樣的, 如何盡量使客戶在自己的網(wǎng)上駐留更長(zhǎng)的時(shí)間, 這樣對(duì)于商家才能有更多客戶和更大的利潤(rùn)空間。
3.3 Web 數(shù)據(jù)挖掘在網(wǎng)絡(luò)教育中的應(yīng)用
教育網(wǎng)絡(luò)化的趨勢(shì)不僅為學(xué)生提供了便利的學(xué)習(xí)方式和廣泛的選擇,也為學(xué)校提供了更加深入了解學(xué)生需求信息和學(xué)生行為特征的可能性。由于受教育對(duì)象個(gè)體之間存在著極大的差異性,網(wǎng)絡(luò)教學(xué)也必須是一種適應(yīng)個(gè)別化學(xué)習(xí)需求的個(gè)性化教學(xué)。這種個(gè)性化教學(xué)的提供,是通過將傳統(tǒng)的數(shù)據(jù)挖掘(Data Mining) 同Web 結(jié)合起來(lái),進(jìn)行Web 數(shù)據(jù)挖掘,即從Web 文檔和Web 活動(dòng)中抽取學(xué)生感興趣的潛在的有用模式和隱藏的信息,作為對(duì)學(xué)生提供個(gè)性化教學(xué)服務(wù)的依據(jù),協(xié)助管理者優(yōu)化站點(diǎn)結(jié)構(gòu),提高站點(diǎn)效率,更好地為網(wǎng)絡(luò)教育服務(wù)。
3.4在網(wǎng)站設(shè)計(jì)中的應(yīng)用
在網(wǎng)站設(shè)計(jì)方面中的應(yīng)用,主要是通過對(duì)網(wǎng)站內(nèi)容的挖掘,特別是對(duì)文本內(nèi)容的挖掘,可以有效地組織網(wǎng)站信息,如采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織;通過對(duì)用戶訪問日志記錄信息的挖掘,把握用戶感興趣的信息,從而有助于開展網(wǎng)站信息推送服務(wù)以及個(gè)人信息的定制服務(wù),吸引更多的用戶。
4. 結(jié)束語(yǔ)
社會(huì)的發(fā)展越來(lái)越離不開信息的傳播與使用,在數(shù)據(jù)量急劇增長(zhǎng)的情況下如何高效地檢索出使用者需要的信息更加顯得重要,Web 數(shù)據(jù)挖掘正是因?yàn)闈M足了這方面的需要才能獲得如此迅速的發(fā)展, Web 挖掘技術(shù)也將成為重要的研究課題和方向。
參考文獻(xiàn)
[1] 曼麗春, 朱宏, 楊全勝. Web 數(shù)據(jù)挖掘研究與探討[J].現(xiàn)在電子技術(shù)2005 (8) :3~6
[2] 夏火松. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M]. 科學(xué)出版社,2004.207- 227.
[3] Jiawei Han,Micheline Kamber.DataMining:Concept and Techniques[M].Morgan Kaufmann Publishers,Inc 2001.272- 312.
[4] 陳文偉.黃金才.趙新昱.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].北京:北京大學(xué)出版社,2002.1- 14.
【關(guān)鍵詞】數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)挖掘 技術(shù) 應(yīng)用
信息時(shí)代背景下,傳統(tǒng)數(shù)據(jù)庫(kù)主要是面向事務(wù)并存儲(chǔ)在線交易的數(shù)據(jù)信息,但是無(wú)法為人們找到信息中隱藏的重要內(nèi)容。因此社會(huì)發(fā)展新形勢(shì)下,數(shù)據(jù)倉(cāng)庫(kù)與挖掘技術(shù)應(yīng)運(yùn)而生,并成為企業(yè)現(xiàn)代化發(fā)展的重要應(yīng)用技術(shù),不僅能夠提高數(shù)據(jù)信息管理能力,還能夠促進(jìn)企業(yè)發(fā)展。因此加強(qiáng)對(duì)該課題的研究具有積極意義。
1 數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘技術(shù)概念
所謂數(shù)據(jù)倉(cāng)庫(kù)技術(shù)設(shè)計(jì)靈感來(lái)自于傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù),其主要是在計(jì)算機(jī)中實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的一種技術(shù)。但是相比較傳統(tǒng)數(shù)據(jù)庫(kù),二者存在本質(zhì)上的差別。數(shù)據(jù)倉(cāng)庫(kù)的出現(xiàn)并未取代傳統(tǒng)數(shù)據(jù)庫(kù),二者共存在信息時(shí)代,且發(fā)揮自身獨(dú)特的優(yōu)勢(shì)。數(shù)據(jù)庫(kù)主要存儲(chǔ)在線交易數(shù)據(jù),且盡量避免冗余,通常采取符合范式規(guī)則設(shè)計(jì);而數(shù)據(jù)倉(cāng)庫(kù)在設(shè)計(jì)過程中有意引入冗余,采取反范式方式實(shí)現(xiàn)設(shè)計(jì)目標(biāo)。
而數(shù)據(jù)挖掘技術(shù)是在數(shù)據(jù)集合基礎(chǔ)之上,從中抽取隱藏在數(shù)據(jù)當(dāng)中的有用信息的非平凡過程。這些信息表現(xiàn)形式呈現(xiàn)多樣化,如概念、規(guī)則等。它在具體應(yīng)用過程中,不僅能夠幫助決策者分析歷史與當(dāng)前數(shù)據(jù)信息,還具有預(yù)見作用。就本質(zhì)上來(lái)看,數(shù)據(jù)挖掘過程也是知識(shí)發(fā)現(xiàn)的過程。數(shù)據(jù)挖掘技術(shù)是多個(gè)學(xué)科綜合的結(jié)果,對(duì)此其融合了多項(xiàng)技術(shù)功能,如聚類、分類及預(yù)測(cè)等,且這些功能并非獨(dú)立存在,而是存在相互依存關(guān)系。
2 數(shù)據(jù)倉(cāng)庫(kù)與挖掘技術(shù)的應(yīng)用
2.1 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
作為信息提供平臺(tái),其從業(yè)務(wù)處理系統(tǒng)中獲得數(shù)據(jù),并以星型與雪花模型實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效組織。一般情況下,它具體應(yīng)用主要表現(xiàn)在四個(gè)方面:
2.1.1 抽取數(shù)據(jù)信息
數(shù)據(jù)倉(cāng)庫(kù)具有獨(dú)立性,在應(yīng)用中需要從事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源等介質(zhì)當(dāng)中獲取數(shù)據(jù),并設(shè)置定時(shí)抽取,但需要合理控制操作時(shí)間、順序等,以提高數(shù)據(jù)信息有效性。
2.1.2 存儲(chǔ)和管理數(shù)據(jù)
作為數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵,數(shù)據(jù)存儲(chǔ)及管理模式直接決定其自身特性。因此該方面工作需要從技術(shù)特點(diǎn)入手,并積極解決對(duì)各項(xiàng)業(yè)務(wù)并行處理、查詢優(yōu)化等問題。
2.1.3 表現(xiàn)數(shù)據(jù)
數(shù)據(jù)表現(xiàn)作為數(shù)據(jù)倉(cāng)庫(kù)的開端,集中在多位分析、數(shù)理統(tǒng)計(jì)等多個(gè)方面。其中多維分析是數(shù)據(jù)倉(cāng)庫(kù)的核心,也是具體表現(xiàn)形式,而通過數(shù)據(jù)統(tǒng)計(jì)能夠幫助企業(yè)抓住機(jī)遇,實(shí)現(xiàn)經(jīng)濟(jì)效益最大化目標(biāo)。
2.1.4 技術(shù)咨詢
數(shù)據(jù)倉(cāng)庫(kù)的出現(xiàn)及應(yīng)用并不簡(jiǎn)單,其是一個(gè)系統(tǒng)性的解決方案和工程。實(shí)施數(shù)據(jù)倉(cāng)庫(kù)時(shí),技術(shù)咨詢服務(wù)十分重要,是一個(gè)必不可少的部分,對(duì)此在應(yīng)用中,應(yīng)加強(qiáng)對(duì)技術(shù)咨詢的關(guān)注力度。
2.2 數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域中的應(yīng)用
不同于傳統(tǒng)時(shí)代,社會(huì)各領(lǐng)域在參與激烈的市場(chǎng)競(jìng)爭(zhēng)過程中,充分認(rèn)識(shí)到數(shù)據(jù)對(duì)自身長(zhǎng)遠(yuǎn)發(fā)展戰(zhàn)略實(shí)現(xiàn)的重要性。因此數(shù)據(jù)挖掘技術(shù)在當(dāng)前各行業(yè)發(fā)展中隨處可見。
2.2.1 應(yīng)用于醫(yī)學(xué)方面,提高診斷準(zhǔn)確率
眾所周知,人體奧秘?zé)o窮無(wú)盡,遺傳密碼、人類疾病等方面都蘊(yùn)含了海量數(shù)據(jù)信息。而傳統(tǒng)研究模式,單純依靠人工無(wú)法真正探索真正的秘密。而利用數(shù)據(jù)挖掘技術(shù)能夠有效解決這些問題,給醫(yī)療工作者帶來(lái)了極大的便利。同時(shí),醫(yī)療體制改革背景下,醫(yī)院內(nèi)部醫(yī)療器具的管理、病人檔案資料整理等方面同樣涉及數(shù)據(jù),引進(jìn)數(shù)據(jù)挖掘技術(shù),能夠深入分析疾病之間的聯(lián)系及規(guī)律,幫助醫(yī)生診斷和治療,以達(dá)到診斷事半功倍的目標(biāo),且為保障人類健康等提供強(qiáng)大的技術(shù)支持。
2.2.2 應(yīng)用于金融方面,提高工作有效性
銀行及金融機(jī)構(gòu)中涉及儲(chǔ)蓄、信貸等大量數(shù)據(jù)信息。利用數(shù)據(jù)挖掘技術(shù)管理和應(yīng)用這些數(shù)據(jù)信息,能夠幫助金融機(jī)構(gòu)更好地適應(yīng)互聯(lián)網(wǎng)金融時(shí)代的發(fā)展趨勢(shì)。提高金融數(shù)據(jù)完整、可靠性,為金融決策提供科學(xué)依據(jù)。金融市場(chǎng)變幻莫測(cè),要想在競(jìng)爭(zhēng)中提升自身核心競(jìng)爭(zhēng)力,需要對(duì)數(shù)據(jù)進(jìn)行多維分析和研究。在應(yīng)用中,特別是針對(duì)偵破洗黑錢等犯罪活動(dòng),可以采取孤立點(diǎn)分析等工具進(jìn)行分析,為相關(guān)工作有序開展奠定堅(jiān)實(shí)的基礎(chǔ)。
2.2.3 應(yīng)用于高校日常管理方面,實(shí)現(xiàn)高校信息化建設(shè)
當(dāng)前,針對(duì)高校中存在的貧困大學(xué)生而言,受到自身家庭等因素的影響,他們學(xué)業(yè)與生活存在很多困難。而高校給予了貧困生很多幫助。對(duì)此將數(shù)據(jù)挖掘技術(shù)引入到貧困生管理工作中,能夠?qū)⑿?nèi)貧困生群體作為主要研究對(duì)象,采集和存儲(chǔ)在校生生活、學(xué)習(xí)等多方面信息,然后構(gòu)建貧困生認(rèn)定模型,并將此作為基礎(chǔ)進(jìn)行查詢和統(tǒng)計(jì),為貧困生針對(duì)管理工作提供技術(shù)支持,從而提高高校學(xué)生管理實(shí)務(wù)效率,促進(jìn)高校和諧、有序發(fā)展。
2.2.4 應(yīng)用于電信方面,實(shí)現(xiàn)經(jīng)濟(jì)效益最大化目標(biāo)
現(xiàn)代社會(huì)發(fā)展趨勢(shì)下,電信產(chǎn)業(yè)已經(jīng)不僅限于傳統(tǒng)意義上的電話服務(wù)提供商、而將語(yǔ)言、電話等有機(jī)整合成為一項(xiàng)數(shù)據(jù)通信綜合業(yè)務(wù)。電信網(wǎng)、因特網(wǎng)等網(wǎng)絡(luò)融合已經(jīng)成為必然趨勢(shì),并將成為未來(lái)發(fā)展的主要方向。在大融合影響下,數(shù)據(jù)挖掘技術(shù)應(yīng)用能夠幫助運(yùn)營(yíng)商業(yè)務(wù)運(yùn)作,如利用多維分析電信數(shù)據(jù);或者采取聚類等方法查找異常狀態(tài)及盜用模式等,不斷提高數(shù)據(jù)資源利用率,更為深入地了解用戶行為,促進(jìn)電信業(yè)務(wù)的推廣及應(yīng)用,從而實(shí)現(xiàn)經(jīng)濟(jì)效益最大化目標(biāo)。
3 結(jié)論
根據(jù)上文所述,數(shù)據(jù)倉(cāng)庫(kù)與挖掘技術(shù)作為一項(xiàng)新型技術(shù),在促進(jìn)相關(guān)產(chǎn)業(yè)發(fā)展等方面占據(jù)十分重要的位置。因此在具體應(yīng)用中,除了要積極明確數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)之間的差別之外,還應(yīng)切實(shí)結(jié)合實(shí)際情況,積極引入數(shù)據(jù)挖掘技術(shù),充分挖掘和探索數(shù)據(jù)信息中的重要內(nèi)容,為制定科學(xué)決策提供支持,同時(shí)還應(yīng)加大對(duì)技術(shù)的深度研究,不斷提高技術(shù)應(yīng)用水平,從而為用戶帶來(lái)更大的利益。
參考文獻(xiàn)
[1]陳宏.淺談數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)及應(yīng)用[J].科技廣場(chǎng),2011,09:90-93.
[2]崔愿星.淺析數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的應(yīng)用[J].內(nèi)江科技,2014,01:141-142.
[3]王慧.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘在醫(yī)院信息系統(tǒng)中的應(yīng)用[J].電腦開發(fā)與應(yīng)用,2014,01:76-78.
[4]靳鑫.淺析數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘[J].中國(guó)新通信,2012,11:29-31.
[關(guān)鍵詞]數(shù)據(jù)挖掘 企業(yè) 應(yīng)用
[中圖分類號(hào)]TP[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1007-9416(2010)02-0079-02
1 前言
數(shù)據(jù)挖掘能幫助企業(yè)減少不必要投資的同時(shí)提高資金回報(bào)。數(shù)據(jù)挖掘給企業(yè)帶來(lái)的潛在的投資回報(bào)幾乎是無(wú)止境的。世界范圍內(nèi)具有創(chuàng)新性的公司都開始采用數(shù)據(jù)挖掘技術(shù)來(lái)判斷哪些是他們的最有價(jià)值客戶、重新制定他們的產(chǎn)品推廣策略,以用最小的花費(fèi)得到最好的銷售。
2 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘是一種決策支持過程,是一類深層次的數(shù)據(jù)分析方法。它主要基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),作出歸納性地推理,從中挖掘出潛在的模式,預(yù)測(cè)客戶行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。數(shù)據(jù)挖掘的商業(yè)應(yīng)用可以描述為:按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。數(shù)據(jù)挖掘是一個(gè)利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來(lái)做出預(yù)測(cè)。數(shù)據(jù)挖掘,還可以稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),是從大量數(shù)據(jù)中提取出可信、新穎、有效并能被人理解的信息的高級(jí)處理過程。
2.1 數(shù)據(jù)挖掘是在數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)、概率與數(shù)理統(tǒng)計(jì)的基礎(chǔ)上發(fā)展起來(lái)的一種的技術(shù)。
2.1.1 數(shù)據(jù)庫(kù)技術(shù)
SQL統(tǒng)治數(shù)據(jù)庫(kù)查詢語(yǔ)言標(biāo)準(zhǔn)三十多年這一事實(shí)本身就與現(xiàn)在 IT 發(fā)展的節(jié)拍不符,難道我們“只會(huì)查詢”嗎?所以就有很多專家紛紛轉(zhuǎn)向數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù),從數(shù)據(jù)查詢轉(zhuǎn)向數(shù)據(jù)挖掘、從數(shù)據(jù)演繹轉(zhuǎn)向數(shù)據(jù)歸納。傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)的體系結(jié)構(gòu)也過于瘦少,只有不協(xié)調(diào)的兩層,這樣的結(jié)構(gòu)就造成了只有程序員能編程,老板只能求助于這些“專家”。
2.1.2 人工智能技術(shù)
人工智能技術(shù)的三大難題:“知識(shí)獲取、知識(shí)表示、缺乏常識(shí)”直接制約了它在現(xiàn)實(shí)技術(shù)市場(chǎng)上的作為。而在與數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的結(jié)合上,它可以發(fā)揮重要作用,這使得它轉(zhuǎn)向數(shù)據(jù)挖掘技術(shù)。
2.1.3 概率與數(shù)理統(tǒng)計(jì)
數(shù)理統(tǒng)計(jì)技術(shù)是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科。但在與數(shù)據(jù)庫(kù)技術(shù)的結(jié)合上作為有限,這從 SQL 中那可憐的幾條匯總函數(shù)便可看出。隨著數(shù)據(jù)挖掘?qū)Σ樵儭w納對(duì)演繹需求的進(jìn)化,概率與數(shù)理統(tǒng)計(jì)將獲得新的生命力。
2.2 數(shù)據(jù)挖掘中最常用的技術(shù):
2.2.1 工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)
人工神經(jīng)網(wǎng)絡(luò)是仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線性預(yù)測(cè)模型,通過學(xué)習(xí)進(jìn)行模式識(shí)別。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。在結(jié)構(gòu)上,可以把一個(gè)神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層。而神經(jīng)網(wǎng)絡(luò)的知識(shí)體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上,是一個(gè)分布式矩陣結(jié)構(gòu);神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計(jì)算上,為的是防止訓(xùn)練過度和控制訓(xùn)練的速度,如圖1所示:
2.2.2 決策樹 (Decision Tree)
決策樹方法是利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫(kù)中具有最大信息量的屬性字段,建立決策樹的一個(gè)節(jié)點(diǎn),再根據(jù)概述性字段的不同取值建立樹的分支;在每個(gè)分支子集中重復(fù)建立樹的下層節(jié)點(diǎn)和分支過程。決策樹的基本組成部分:決策節(jié)點(diǎn)、分支和葉子。比如,在貸款申請(qǐng)中,要對(duì)申請(qǐng)的風(fēng)險(xiǎn)大小做出判斷,為了解決這個(gè)問題而建立的一棵決策樹,如圖2所示:
2.2.3 臨近搜索方法(Nearest Neighbor Method)
臨近搜索方法將數(shù)據(jù)集合中每一個(gè)記錄進(jìn)行分類的方法。
2.2.4 規(guī)則推理(Rule Induction)
從統(tǒng)計(jì)意義上對(duì)數(shù)據(jù)中的“如果-那么”規(guī)則進(jìn)行尋找和推導(dǎo)。
2.3 數(shù)據(jù)挖掘步驟
數(shù)據(jù)挖掘的數(shù)據(jù)分析過程可以分為三個(gè)步驟:
2.3.1 確定業(yè)務(wù)對(duì)象
清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步,挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。
2.3.2 數(shù)據(jù)準(zhǔn)備(Data Preparation)
本階段又可進(jìn)一步細(xì)分為兩步:數(shù)據(jù)集成、數(shù)據(jù)選擇和預(yù)分析。
(1)集成(Integration)。在這一步中,將從操作型環(huán)境中提取并集成數(shù)據(jù),解決語(yǔ)義二義問題,消除臟數(shù)據(jù)等等。很明顯,數(shù)據(jù)集成的目的和所利用的技術(shù)與數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集成完全一致,都是為了建立統(tǒng)一的數(shù)據(jù)視圖。數(shù)據(jù)挖掘不一定需要建立在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,但如果數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)能協(xié)同工作,則必將大大地提高數(shù)據(jù)挖掘的工作效率。
(2)數(shù)據(jù)選擇和預(yù)分析(Data Selection and Pre-Analysis)。這一步將負(fù)責(zé)縮小數(shù)據(jù)范圍,提高數(shù)據(jù)挖掘的質(zhì)量,前面提到的驗(yàn)證型工具長(zhǎng)于對(duì)數(shù)據(jù)的細(xì)致,深入地觀察和表述,在這一步中可以發(fā)揮相當(dāng)?shù)淖饔谩?/p>
2.3.3 挖掘(Mining)
數(shù)據(jù)挖掘(Data Mining processor)綜合利用前面提到的四種數(shù)據(jù)挖掘方法分析數(shù)據(jù)庫(kù)中的數(shù)據(jù)。
2.3.4 表述(Presentation)
與驗(yàn)證型工具一樣,數(shù)據(jù)挖掘?qū)@取的信息以便于用戶理解和觀察的方式反映給用戶,這時(shí)可以利用可視化工具。由于用戶要求的不同,DM分析的數(shù)據(jù)的范圍會(huì)有所不同,這樣DM系統(tǒng)會(huì)得出不同的結(jié)論。這些基于不同數(shù)據(jù)集合的分析結(jié)果除了通過可視化工具提供給用戶外還可以存儲(chǔ)在知識(shí)庫(kù)中,供日后進(jìn)一步分析和比較。
2.3.5 評(píng)價(jià)(Assess)
如果分析人員對(duì)分析結(jié)果不滿意,可以遞歸的執(zhí)行上述三個(gè)過程,直到滿意為止。
3 數(shù)據(jù)挖掘在企業(yè)決策過程中的作用
3.1 數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘就是對(duì)海量數(shù)據(jù)進(jìn)行精加工。嚴(yán)格地說(shuō),數(shù)據(jù)挖掘是一種技術(shù),從大量的數(shù)據(jù)中抽取出潛在的、不為人知的有價(jià)值信息、模式和趨勢(shì),然后以易于理解的可視化形式表達(dá)出來(lái),其目的是為了提高市場(chǎng)決策能力、檢測(cè)異常模式、控制可預(yù)見風(fēng)險(xiǎn)、在經(jīng)驗(yàn)?zāi)P突A(chǔ)上預(yù)言未來(lái)趨勢(shì)等。數(shù)據(jù)挖掘技術(shù)在商業(yè)領(lǐng)域已經(jīng)不是一個(gè)新名詞,最早成功應(yīng)用于高投入、高風(fēng)險(xiǎn)、高回報(bào)的金融領(lǐng)域,正在不斷向電信、保險(xiǎn)、零售等客戶資源信息密集的行業(yè)拓展。美國(guó)財(cái)富雜志500強(qiáng)之一的第一數(shù)據(jù)公司(First Data Corp.)就在為第一國(guó)家銀行(First National Bank)、美國(guó)在線交易(Ameritrade holding Co.)、奧馬哈保險(xiǎn)公司(Mutual of Omaha Co.)等著名的金融證券和保險(xiǎn)公司提供數(shù)據(jù)挖掘的產(chǎn)品服務(wù),這些企業(yè)在風(fēng)險(xiǎn)控制、挖掘客戶、降低成本方面的年收益數(shù)以億計(jì)。
3.2 在企業(yè)決策過程中利用數(shù)據(jù)挖掘的作用
本文為全文原貌 未安裝PDF瀏覽器用戶請(qǐng)先下載安裝 原版全文
目前,商業(yè)數(shù)據(jù)挖掘的應(yīng)用重點(diǎn)集中在對(duì)企業(yè)內(nèi)部信息資源的加工處理,指導(dǎo)企業(yè)運(yùn)營(yíng)的戰(zhàn)術(shù)策略的實(shí)施。具體地說(shuō),就是在以客戶需求為價(jià)值源泉、進(jìn)銷存為價(jià)值鏈的各環(huán)節(jié)進(jìn)行數(shù)據(jù)增值分析,并將分析結(jié)果迅速向鏈條的上一環(huán)節(jié)傳遞,調(diào)整鏈條上游的執(zhí)行達(dá)到改善下游環(huán)節(jié)執(zhí)行結(jié)果的目的,最終形成以客戶終端需求為導(dǎo)向的價(jià)值增值。
部分企業(yè)資源計(jì)劃軟件中集成了對(duì)計(jì)劃、生產(chǎn)、產(chǎn)品銷售進(jìn)行數(shù)據(jù)挖掘的模塊,能夠提供商業(yè)智能的分析結(jié)果;另外,客戶需求的價(jià)值鏈終端是另一個(gè)數(shù)據(jù)挖掘技術(shù)應(yīng)用的重點(diǎn),客戶關(guān)系管理的目的就是創(chuàng)造、挽留客戶并不斷升級(jí)對(duì)客戶的服務(wù),以保證企業(yè)利潤(rùn)的持續(xù)增長(zhǎng)。“以客戶為中心”的數(shù)據(jù)挖掘內(nèi)容涵蓋了客戶需求分析、客戶忠誠(chéng)度分析、客戶等級(jí)評(píng)估分析等三部分,有些還包括產(chǎn)品銷售。
客戶需求分析包括:消費(fèi)習(xí)慣、消費(fèi)頻度、產(chǎn)品類型、服務(wù)方式、交易歷史記錄、需求變化趨勢(shì)等因素分析。
客戶忠誠(chéng)度分析包括:客戶服務(wù)持續(xù)時(shí)間、交易總數(shù)、客戶滿意程度、客戶地理位置分布、客戶消費(fèi)心理等因素分析。
客戶等級(jí)評(píng)估分析包括:客戶消費(fèi)規(guī)模、消費(fèi)行為、客戶履約情況、客戶信用度等因素分析。
產(chǎn)品銷售分析包括:區(qū)域市場(chǎng)、渠道市場(chǎng)、季節(jié)銷售等因素分析。
然而,數(shù)據(jù)挖掘不僅僅用于客戶關(guān)系管理,ERP更不能夠完全覆蓋數(shù)據(jù)挖掘的整個(gè)內(nèi)涵。企業(yè)數(shù)據(jù)挖掘的內(nèi)容不僅包括企業(yè)的內(nèi)部信息資源,更包括大量的企業(yè)外部信息資源。商業(yè)數(shù)據(jù)挖掘的下一個(gè)應(yīng)用熱點(diǎn)將建立在兩類信息資源充分整合的基礎(chǔ)上。
相對(duì)于內(nèi)部信息資源而言,企業(yè)外部的宏觀政策環(huán)境、市場(chǎng)需求動(dòng)向和競(jìng)爭(zhēng)對(duì)手情報(bào)等信息資源左右著企業(yè)戰(zhàn)略決策與宏觀發(fā)展規(guī)劃,也直接決定企業(yè)市場(chǎng)戰(zhàn)術(shù)策略的實(shí)施,所以對(duì)信息資源的整合利用以及競(jìng)爭(zhēng)情報(bào)分析將成為企業(yè)級(jí)數(shù)據(jù)挖掘應(yīng)用的重點(diǎn)。
以IBM為例,為了導(dǎo)正企業(yè)戰(zhàn)略決策方向,IBM于1993年提出三項(xiàng)競(jìng)爭(zhēng)策略:立即加強(qiáng)對(duì)競(jìng)爭(zhēng)對(duì)手的研究、建立一個(gè)協(xié)調(diào)統(tǒng)一的競(jìng)爭(zhēng)情報(bào)運(yùn)行機(jī)制以及將可操作的競(jìng)爭(zhēng)情報(bào)運(yùn)用于公司戰(zhàn)略、市場(chǎng)計(jì)劃及銷售策略。其新的競(jìng)爭(zhēng)策略通過研究市場(chǎng)格局和競(jìng)爭(zhēng)對(duì)手的狀況、合理定位并改善自身的產(chǎn)品和服務(wù)兩個(gè)途徑有效地提升了企業(yè)核心競(jìng)爭(zhēng)力,采用的競(jìng)爭(zhēng)情報(bào)運(yùn)行機(jī)制及競(jìng)爭(zhēng)情報(bào)規(guī)劃能夠把全公司的競(jìng)爭(zhēng)情報(bào)力量集中于主要的競(jìng)爭(zhēng)對(duì)手和主要威脅,不斷地優(yōu)化現(xiàn)有的情報(bào)資源。
隨著企業(yè)市場(chǎng)競(jìng)爭(zhēng)的日益加劇,企業(yè)競(jìng)爭(zhēng)情報(bào)已經(jīng)不限于原有意義上的數(shù)據(jù)采集、整理、分類、的概念,“在線”需求逐步超越“離線”需求,“受動(dòng)式服務(wù)”正為“主動(dòng)式、自助式”服務(wù)所取代,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為“信息分析”這個(gè)企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)中核心模塊的技術(shù)支撐。“數(shù)據(jù)在線服務(wù)”和“競(jìng)爭(zhēng)情報(bào)個(gè)性化服務(wù)”將成為企業(yè)級(jí)數(shù)據(jù)挖掘應(yīng)用的新熱點(diǎn)需求,也將成為知識(shí)經(jīng)濟(jì)下新興的數(shù)據(jù)服務(wù)模式。
4 結(jié)語(yǔ)
數(shù)據(jù)挖掘的核心技術(shù)是人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等,但一個(gè)DM系統(tǒng)不是多項(xiàng)技術(shù)的簡(jiǎn)單組合,而是一個(gè)完整的整體,它還需要其他輔助技術(shù)的支持,才能完成數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)分析、結(jié)果表述這一系列任務(wù),最后將分析結(jié)果呈現(xiàn)在用戶面前。
[參考文獻(xiàn)]
[1] 胡百敬,SQL Server 2000 數(shù)據(jù)轉(zhuǎn)換服務(wù)[M],北京:中國(guó)鐵道出版社,2003.1.
[2] Reed Jacobson,SQL Server 2000 Analysis services 學(xué)習(xí)指南[M].北京:機(jī)械工業(yè)出版社,2001.
[3] 韓加煒J.(Han,JiaWei),數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[4] 陳京民,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M],北京:電子工業(yè)出版社,2002.
[5] 李真文, SQL Server 2000 開發(fā)人員指南[M].北京:北京希望電子出版社,2001.
[6] 石鈞.ADO編程技術(shù)[M].北京:清華大學(xué)出版社,2001.
[7] Jared Jackson,Jussi Myllymaki,基于Web的數(shù)據(jù)挖掘[C].網(wǎng)站獲取,2001.6.
【關(guān)鍵詞】經(jīng)濟(jì)統(tǒng)計(jì) 數(shù)據(jù)挖掘技術(shù) 應(yīng)用
在人們的實(shí)際生活中,為滿足社會(huì)經(jīng)濟(jì)對(duì)于數(shù)據(jù)信息的需求,人們通常會(huì)做大量的經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)工作,而現(xiàn)有的數(shù)據(jù)統(tǒng)計(jì)分析質(zhì)量已遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)在經(jīng)濟(jì)發(fā)展的需要。基于此,數(shù)據(jù)挖掘技術(shù)應(yīng)用而生,為經(jīng)濟(jì)統(tǒng)計(jì)工具帶來(lái)了新的變化,開啟了經(jīng)濟(jì)統(tǒng)計(jì)工作的新方向。
一、數(shù)據(jù)挖掘技術(shù)的含義
通常情況下,數(shù)據(jù)挖掘技術(shù)就是從具有大量的、不完全的、模糊的等復(fù)雜數(shù)據(jù)信息中,對(duì)大量的數(shù)據(jù)信息進(jìn)行詳細(xì)的模型化處理,從而挖掘出具有利用價(jià)值的信息的過程。因此,數(shù)據(jù)挖掘技術(shù)最終是一種人工智能化的演變過程,包括對(duì)神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)機(jī)數(shù)據(jù)統(tǒng)計(jì)等內(nèi)容,能夠隨著社會(huì)的發(fā)展而不斷變化的學(xué)科。由于數(shù)據(jù)量較大,傳統(tǒng)的統(tǒng)計(jì)分析方法在統(tǒng)計(jì)數(shù)據(jù)方面效率較低,甚至還會(huì)出現(xiàn)統(tǒng)計(jì)決策的失誤。而數(shù)據(jù)挖掘技術(shù)就是將所得到的信息挖掘出未知的潛在的有效信息,在原有基礎(chǔ)上發(fā)現(xiàn)無(wú)法預(yù)料的有價(jià)值的簡(jiǎn)單信息。由于數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)的分析要求很高,也正是因?yàn)檫@樣,才使得數(shù)據(jù)挖掘技術(shù)變得更有實(shí)際意義。
數(shù)據(jù)挖掘技術(shù)是一種信息有效轉(zhuǎn)換的過程,其步驟可簡(jiǎn)單概括為,準(zhǔn)備數(shù)據(jù)到挖掘數(shù)據(jù)再到分析數(shù)據(jù)的過程。在這個(gè)過程中,數(shù)據(jù)挖掘技術(shù)起著關(guān)鍵性作用,其功能多樣,有對(duì)模型的預(yù)測(cè)、數(shù)據(jù)的類聚或者分類等,同時(shí)還會(huì)涉及聚焦檢測(cè)、銜接分析、關(guān)聯(lián)規(guī)則等一些技術(shù)手段。因此,數(shù)據(jù)挖掘技術(shù)有多種特點(diǎn)和作用,一是能夠?qū)⒋罅康臄?shù)據(jù)信息得到有效處理;二是能夠自動(dòng)找出有價(jià)值的數(shù)據(jù)信息;三是可以對(duì)數(shù)據(jù)的有效信息進(jìn)行分析和評(píng)判;四是可以將一些有效性的信息及時(shí)并快速的反映出來(lái)。
二、在經(jīng)濟(jì)統(tǒng)計(jì)中,數(shù)據(jù)挖掘技術(shù)的表現(xiàn)
在經(jīng)濟(jì)統(tǒng)計(jì)中,數(shù)據(jù)挖掘技術(shù)的流程對(duì)統(tǒng)計(jì)工作有著重要作用。因此,數(shù)據(jù)挖掘技術(shù)應(yīng)用到實(shí)際統(tǒng)計(jì)工作中,其首要任務(wù)就是定義問題并確定目的,這就需要技術(shù)人員在探索所有的經(jīng)濟(jì)問題明確的前提下進(jìn)行數(shù)據(jù)的選擇、采集和預(yù)處理,將這些準(zhǔn)備工作完成充分。之后才能開展數(shù)據(jù)挖掘工作,盡可能的利用人工智能、統(tǒng)計(jì)方面的知識(shí)對(duì)數(shù)據(jù)類型和特點(diǎn)進(jìn)行選擇歸類,挑選出合適的模型對(duì)數(shù)據(jù)進(jìn)行信息的挖掘,最后進(jìn)行工作的歸納分析,針對(duì)所挖掘出的有效性信息進(jìn)行分析、評(píng)估和適當(dāng)調(diào)整,盡可能最大限度的挖掘出有價(jià)值的信息,同時(shí)將其轉(zhuǎn)化到實(shí)際經(jīng)濟(jì)問題的解決中去,從而保證經(jīng)濟(jì)問題的有效解決。
三、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用
經(jīng)濟(jì)由于統(tǒng)計(jì)要求一定的準(zhǔn)確性和實(shí)用性,而數(shù)據(jù)挖掘技術(shù)恰恰能夠起到這樣的作用,滿足了經(jīng)濟(jì)發(fā)展的需要,最終能被應(yīng)用到經(jīng)濟(jì)統(tǒng)計(jì)工作中。因此,數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用十分廣發(fā),包括以下幾個(gè)方面:
數(shù)據(jù)挖掘技術(shù)中的統(tǒng)計(jì)分析方法可以有效應(yīng)用到統(tǒng)計(jì)工作中。這種統(tǒng)計(jì)分析的方法最終是依據(jù)統(tǒng)計(jì)學(xué)原理來(lái)分析數(shù)據(jù)庫(kù)中的信息,因此,這種方法對(duì)于統(tǒng)計(jì)學(xué)專業(yè)人士較為容易。
數(shù)據(jù)挖掘技術(shù)中的神經(jīng)網(wǎng)絡(luò)方法可以有效應(yīng)用到統(tǒng)計(jì)工作中。這種神經(jīng)網(wǎng)絡(luò)方法其實(shí)是對(duì)人體大腦的信息進(jìn)行模擬加工的智能化過程,正如人的神經(jīng)網(wǎng)絡(luò)一樣,需要經(jīng)過輸入、分析和輸出。所以,該方法在經(jīng)濟(jì)統(tǒng)計(jì)工作中比較適用,這主要是因?yàn)樯窠?jīng)網(wǎng)絡(luò)方法能夠向工作人員提供既完整又準(zhǔn)確的處理數(shù)據(jù)信息的過程,從而使經(jīng)濟(jì)運(yùn)行模式具有形象化、具體化和實(shí)用化,最終獲得對(duì)經(jīng)濟(jì)問題的分析,進(jìn)而獲得處理方法。
數(shù)據(jù)挖掘技術(shù)中的決策樹方法。通常情況下,這種方法主要是對(duì)大量的數(shù)據(jù)進(jìn)行分析和歸類,進(jìn)而篩選出有價(jià)值的簡(jiǎn)單信息,但這種方法分類速度快,效率高,所以,這種方法常用于預(yù)測(cè)模型中的算法和處理一些大規(guī)模數(shù)據(jù)的工作。
數(shù)據(jù)挖掘技術(shù)中的粗集理論的方法。粗集理論方法是通過對(duì)上下近似集而得出不確定問題,是一種研究不確定知識(shí)的數(shù)學(xué)工具。其過程易于操作,算法較為簡(jiǎn)單,有效確保了經(jīng)濟(jì)決策和需求的協(xié)調(diào)性。
數(shù)據(jù)挖掘技術(shù)中的遺傳算法。遺傳算法的思路主要是在指定對(duì)象的人群中進(jìn)行信息的采集,通過對(duì)隱含的信息整合分析后,才能得到結(jié)果。因此,遺傳算法是一種根隨機(jī)搜索算法。
四、在經(jīng)濟(jì)統(tǒng)計(jì)工作中,數(shù)據(jù)挖掘技術(shù)有哪些作用
在經(jīng)濟(jì)統(tǒng)計(jì)工作,數(shù)據(jù)挖掘技術(shù)起著重要作用,具體包括以下幾個(gè)方面:
數(shù)據(jù)挖掘技術(shù)能夠滿足經(jīng)濟(jì)統(tǒng)計(jì)的不同需要。由于經(jīng)濟(jì)的快速發(fā)展,數(shù)據(jù)挖掘技術(shù)為了滿足發(fā)展需要,其挖掘工具也不斷出現(xiàn)。目前,人們常見的數(shù)據(jù)挖掘工具包括通用型工具、綜合工具及面向特定應(yīng)用的工具。市面上所占比例最大的是通用性型工具,它可以滿足不同領(lǐng)域的需要,是較為成熟的挖掘工具。而綜合工具主要是為了滿足商業(yè)活動(dòng)中數(shù)據(jù)挖掘的需求,能夠?yàn)樯虡I(yè)中的經(jīng)濟(jì)活動(dòng)提供有力幫助。
數(shù)據(jù)挖掘技術(shù)可以為經(jīng)濟(jì)統(tǒng)計(jì)工作提供有效服務(wù)。在我國(guó),數(shù)據(jù)挖掘技術(shù)主要體現(xiàn)在數(shù)據(jù)信息的共享和數(shù)據(jù)的統(tǒng)計(jì)方面,在一定程度上可以為經(jīng)濟(jì)的統(tǒng)計(jì)和發(fā)展提供有效的服務(wù)。
數(shù)據(jù)挖掘技術(shù)面向特定應(yīng)用工具。隨著數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,面向特定應(yīng)用的工具縱向貫穿了經(jīng)濟(jì)統(tǒng)計(jì)的各個(gè)部分,為特定的領(lǐng)域提供了有效服務(wù),具有很強(qiáng)的針對(duì)性。
五、結(jié)語(yǔ)
盡管數(shù)據(jù)挖掘技術(shù)從產(chǎn)生到現(xiàn)在,所經(jīng)歷的時(shí)間不是很長(zhǎng),但它卻在社會(huì)的經(jīng)濟(jì)統(tǒng)計(jì)中發(fā)揮著舉足輕重的作用,為人們帶來(lái)便捷的統(tǒng)計(jì)工作,使工作更加簡(jiǎn)單化。總之,有效的經(jīng)濟(jì)統(tǒng)計(jì)為經(jīng)濟(jì)的發(fā)展提供了關(guān)鍵性數(shù)據(jù)統(tǒng)計(jì)信息,同時(shí)也為經(jīng)濟(jì)決策提供強(qiáng)有力的依據(jù)。因此,將數(shù)據(jù)挖掘技術(shù)有效應(yīng)用到經(jīng)濟(jì)統(tǒng)計(jì)工作中,滿足了目前經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)挖掘的需要,促進(jìn)了社會(huì)經(jīng)濟(jì)的健康發(fā)展。
參考文獻(xiàn):
論文關(guān)鍵詞:網(wǎng)絡(luò)營(yíng)銷,數(shù)據(jù),挖掘,技術(shù),應(yīng)用
(新疆財(cái)經(jīng)大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院新疆烏魯木齊830012)
0前言
近些年來(lái),已經(jīng)有越來(lái)越多的企業(yè)把通信、網(wǎng)絡(luò)技術(shù)和計(jì)算機(jī)應(yīng)用引入企業(yè)的日常管理工作和業(yè)務(wù)開發(fā)處理當(dāng)中,企業(yè)的各類信息化程度也在不斷提高。現(xiàn)代科技信息技術(shù)的廣泛應(yīng)用已經(jīng)顯著的提高了企業(yè)的工作效率和經(jīng)濟(jì)效益。但是,在使用信息技術(shù)給企業(yè)帶來(lái)的方便、快捷的同時(shí),也不斷的出現(xiàn)了新的問題和需求。企業(yè)經(jīng)過多年積累了大量的歷史數(shù)據(jù),這些數(shù)據(jù)對(duì)企業(yè)當(dāng)前的日常經(jīng)營(yíng)活動(dòng)幾乎沒有任何的使用價(jià)值,成了留之無(wú)用棄之可惜的累贅。而且儲(chǔ)藏這些歷史數(shù)據(jù)會(huì)對(duì)企業(yè)造成很大的困難和費(fèi)用開銷。為此數(shù)據(jù)挖掘技術(shù)應(yīng)用在網(wǎng)絡(luò)營(yíng)銷中勢(shì)在必行,全面細(xì)致的分析數(shù)據(jù)庫(kù)資源并從中提取有價(jià)值的信息來(lái)對(duì)商業(yè)決策進(jìn)行支持,從而來(lái)控制運(yùn)營(yíng)成本、提高經(jīng)濟(jì)效益。本文將從網(wǎng)絡(luò)營(yíng)銷中數(shù)據(jù)挖掘技術(shù)的幾個(gè)應(yīng)用進(jìn)行探討和分析。
1客戶關(guān)系管理
客戶關(guān)系管理在網(wǎng)絡(luò)營(yíng)銷,商業(yè)競(jìng)爭(zhēng)是一家以客戶為中心的競(jìng)技狀態(tài)的客戶,留住客戶,擴(kuò)大客戶基礎(chǔ),建立密切的客戶關(guān)系,客戶需求分析和創(chuàng)造客戶需求等,是非常關(guān)鍵的營(yíng)銷問題。客戶關(guān)系管理,營(yíng)銷和信息技術(shù)領(lǐng)域是一個(gè)新概念,這在90年代初,軟件產(chǎn)品在上世紀(jì)90年代后期出現(xiàn)的誕生。目前,在國(guó)內(nèi)和國(guó)外的此類產(chǎn)品的研究和發(fā)展階段。然而,繼續(xù)與數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)的進(jìn)步和發(fā)展,客戶關(guān)系管理,也是對(duì)實(shí)際應(yīng)用階段。CRM的目標(biāo)是管理者與客戶的互動(dòng),提升客戶價(jià)值,提高客戶滿意度,提高客戶的忠誠(chéng)度,還發(fā)現(xiàn),市場(chǎng)營(yíng)銷和銷售渠道,然后尋找新客戶,提高客戶的利潤(rùn)貢獻(xiàn)率的最終目的是為了推動(dòng)社會(huì)和經(jīng)濟(jì)效益。客戶關(guān)系管理的目的,應(yīng)用是改善企業(yè)與客戶的關(guān)系,它是企業(yè)和服務(wù)本質(zhì)管理和協(xié)調(diào),以滿足客戶的需求,企業(yè)政策支持這項(xiàng)工作,并聯(lián)系客戶服務(wù)加強(qiáng)管理,提高客戶滿意度和品牌忠誠(chéng)度。
然而,數(shù)據(jù)挖掘可以應(yīng)用到很多方面的CRM和不同階段,包括以下內(nèi)容:
(1)“一對(duì)一”營(yíng)銷的內(nèi)部工作人員認(rèn)識(shí)到,客戶是在這個(gè)領(lǐng)域的企業(yè),而不是貿(mào)易發(fā)展生存的關(guān)鍵。與每一個(gè)客戶接觸的過程,也是了解客戶的進(jìn)程,而且也讓客戶了解業(yè)務(wù)流程。
(2)企業(yè)與客戶之間的銷售應(yīng)該是一種商業(yè)關(guān)系不斷向前發(fā)展。客戶和營(yíng)銷公司成立這種方式,而且有許多方法可以使這種與客戶的關(guān)系,往往以改善包括:延長(zhǎng)時(shí)間,客戶關(guān)系和維護(hù)客戶關(guān)系,以進(jìn)一步加強(qiáng)相互交往過程中,公司可以在對(duì)方取得聯(lián)系更多的利潤(rùn)。
(3)客戶對(duì)客戶盈利能力分析。我們的客戶盈利能力是非常不同的,如果你不明白客戶盈利能力,很難制定有效的營(yíng)銷策略,以獲取最有價(jià)值的客戶,或進(jìn)一步提高客戶的忠誠(chéng)度的價(jià)值。數(shù)據(jù)挖掘技術(shù)可以用來(lái)預(yù)測(cè)客戶在市場(chǎng)條件變化不同的盈利能力。它可以找到所有這些行為和使用模型來(lái)預(yù)測(cè)客戶行為模式的客戶交易盈利水平或新客戶找到高利潤(rùn)。
(4)在所有部門維護(hù)客戶關(guān)系的競(jìng)爭(zhēng)日趨激烈,企業(yè)獲得新客戶的成本上升,因此,保持現(xiàn)有客戶的關(guān)系變得越來(lái)越重要。對(duì)于企業(yè)客戶可分為三大類:沒有價(jià)值或者低價(jià)值的客戶,不容易失去寶貴的客戶,并不斷尋找更多的優(yōu)惠,更有價(jià)值的服務(wù)給客戶。前兩個(gè)類型的客戶,客戶關(guān)系管理,現(xiàn)代化,然而,最具潛力的市場(chǎng)活動(dòng),是第三個(gè)層次的用戶,而且還特別需求和營(yíng)銷工具,以保護(hù)客戶,可以減緩企業(yè)經(jīng)營(yíng)成本,而且還獲得了寶貴的客戶。數(shù)據(jù)挖掘還可以發(fā)現(xiàn),由于客戶流失,該公司能夠滿足這些客戶的需要,采取適當(dāng)措施,保持銷售。
(5)客戶訪問企業(yè)業(yè)務(wù)系統(tǒng)資源,包括能夠獲得新客戶的關(guān)鍵指標(biāo)。為了提供這些新的資源,包括企業(yè)搜索客戶誰(shuí)不知道該產(chǎn)品的客戶,可能是競(jìng)爭(zhēng)對(duì)手,服務(wù)客戶。這些細(xì)分客戶,潛在客戶可以幫助企業(yè)完成檢查。
2企業(yè)經(jīng)營(yíng)定位
通過挖掘客戶的有關(guān)數(shù)據(jù),可以對(duì)客戶進(jìn)行分類,找出其相同點(diǎn)和不同點(diǎn),以便為客戶提供個(gè)性化的產(chǎn)品和服務(wù),使企業(yè)和客戶之間能夠通過網(wǎng)絡(luò)進(jìn)行有效的溝通和信息交流。例如,關(guān)聯(lián)分析,客戶在購(gòu)買某種商品時(shí),有可能會(huì)連帶著購(gòu)買其他的相關(guān)產(chǎn)品,這樣購(gòu)買的某種商品和連帶購(gòu)買的其他相關(guān)產(chǎn)品之間就存在著某種關(guān)聯(lián),企業(yè)可以針對(duì)這種關(guān)聯(lián)進(jìn)行分析,分析出規(guī)律,已制定有效的營(yíng)銷策略來(lái)長(zhǎng)效的起到吸引客戶連帶消費(fèi),購(gòu)買其他產(chǎn)品的營(yíng)銷策略。它能夠智能化地從大量的數(shù)據(jù)中提取出有用的信息和知識(shí),為企業(yè)的管理人員提供決策支持。數(shù)據(jù)挖掘技術(shù)使數(shù)據(jù)庫(kù)技術(shù)進(jìn)入了一個(gè)更高級(jí)的階段,它不僅能對(duì)過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進(jìn)信息的傳遞。
客戶群體的劃分也會(huì)用到數(shù)據(jù)挖掘,沒有基于數(shù)據(jù)挖掘的客戶劃分,就沒有真正的差異化、個(gè)性化營(yíng)銷,就沒有現(xiàn)代營(yíng)銷的根本。做為企業(yè)的領(lǐng)導(dǎo)者,不管你的企業(yè)是賣產(chǎn)品的還是賣服務(wù),第一個(gè)應(yīng)該準(zhǔn)確把握的商業(yè)問題就是你的目標(biāo)客戶群體,他們是誰(shuí),有什么特點(diǎn)和行為模式,有那些獨(dú)特的喜好可以作為營(yíng)銷的突破口,有多大的多長(zhǎng)久的贏利價(jià)值。這些問題是你整個(gè)商業(yè)運(yùn)做的核心和基礎(chǔ),不了解你的客戶,下面的路就根本別指望能走下去了。數(shù)據(jù)挖掘營(yíng)銷應(yīng)用中的客戶群體劃分可以科學(xué)有效的解決這個(gè)問題,也能給企業(yè)找到一個(gè)合理的營(yíng)銷定位。
3客戶信用風(fēng)險(xiǎn)控制
數(shù)據(jù)挖掘技術(shù)在90年代開始應(yīng)用于信用評(píng)估與風(fēng)險(xiǎn)分析中。企業(yè)在進(jìn)行網(wǎng)絡(luò)營(yíng)銷的過程中會(huì)受到各種各樣的來(lái)自買方的信用風(fēng)險(xiǎn)的威脅,隨著市場(chǎng)競(jìng)爭(zhēng)的加劇,貿(mào)易信用已經(jīng)成為企業(yè)成功開發(fā)客戶和加強(qiáng)客戶關(guān)系的重要條件。客戶信用管理主要是搜集儲(chǔ)存客戶信息,因?yàn)榭蛻艏仁瞧髽I(yè)最大的財(cái)富來(lái)源,也是風(fēng)險(xiǎn)的主要來(lái)源。為了讓企業(yè)在這方面更少的受到威脅,可以利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)企業(yè)經(jīng)常面臨的詐騙行為或延付貨款行為,進(jìn)而進(jìn)行回避。同時(shí)盡可能把客戶信用風(fēng)險(xiǎn)控制在交易發(fā)生之前是成功信用管理的根本。因此,充分獲取客戶的詳細(xì)資料并做出安全的決策非常重要。
客戶信用風(fēng)險(xiǎn)管理應(yīng)用數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì):
(1)數(shù)據(jù)挖掘技術(shù),自動(dòng)總結(jié)相對(duì)簡(jiǎn)單的評(píng)估模型,數(shù)據(jù)挖掘應(yīng)用程序的形式被廣泛用于學(xué)習(xí)技術(shù),它可以自動(dòng)完成統(tǒng)計(jì)歸納和推理機(jī)實(shí)現(xiàn)的任務(wù)數(shù)量,系統(tǒng)用戶無(wú)法理解模型詳情及有關(guān)統(tǒng)計(jì)知識(shí)的情況下,它可以很容易地得出結(jié)論。這種評(píng)價(jià)模型在實(shí)際應(yīng)用中降低了成本;
(2)數(shù)據(jù)挖掘技術(shù)更適合描述的財(cái)務(wù)指標(biāo)和信貸上的信用評(píng)價(jià)模型指標(biāo)為基礎(chǔ)的傳統(tǒng)方法,非線性特性的情況基本上是線性的基礎(chǔ)上適當(dāng)?shù)姆椒ê蛯?shí)際應(yīng)用,企業(yè)信用狀況和財(cái)務(wù)指標(biāo)常表現(xiàn)出非線性特性,但在體重指標(biāo)體系和分配方法來(lái)描述這些困難的非線性關(guān)系,實(shí)現(xiàn)了數(shù)據(jù)挖掘應(yīng)用,其中不少是在非線性系統(tǒng)為基礎(chǔ),尤其描述了合適的非線性特性;
(3)數(shù)據(jù)挖掘技術(shù)也可以適應(yīng)各種形式的數(shù)據(jù),數(shù)據(jù)挖掘可以是連續(xù)的數(shù)據(jù),離散數(shù)據(jù),而其他形式的數(shù)據(jù)處理,以便在更大的靈活性,在選擇指標(biāo)時(shí),更加符合客觀實(shí)際的信用風(fēng)險(xiǎn)模型。
(4)數(shù)據(jù)挖掘技術(shù)是優(yōu)于修正的噪音數(shù)據(jù),對(duì)那些在特殊階段或數(shù)據(jù)的完整性,市場(chǎng)條件可能不準(zhǔn)確,有可能是虛假的數(shù)據(jù)。由數(shù)據(jù)挖掘的方法可以修改一些在一定程度上,從而提高了模型的準(zhǔn)確性進(jìn)行評(píng)估;
(5)數(shù)據(jù)挖掘在不完全信息的情況下也可以計(jì)算,計(jì)算信貸風(fēng)險(xiǎn)往往會(huì)遇到德國(guó)不完整的信息問題,一些指標(biāo)只能在一個(gè)范圍的估計(jì)。通過粗糙集數(shù)據(jù)挖掘或分類樹方法,可以優(yōu)化性能的范圍,以獲取該指標(biāo)更準(zhǔn)確的估計(jì);
為現(xiàn)代信用風(fēng)險(xiǎn)管理方法有兩個(gè):第一是所謂的指數(shù)法,其基礎(chǔ)是信用相關(guān)業(yè)務(wù)的某些特性來(lái)企業(yè)信用評(píng)估;第二類是所謂的結(jié)構(gòu)化方法,根據(jù)歷史數(shù)據(jù)和市場(chǎng)數(shù)據(jù)模擬在企業(yè)資產(chǎn)價(jià)值變化的動(dòng)態(tài)持續(xù)的過程,然后確定其企業(yè)信用的位置。
4在網(wǎng)絡(luò)營(yíng)銷中進(jìn)行數(shù)據(jù)挖掘的優(yōu)勢(shì)
網(wǎng)絡(luò)營(yíng)銷作為適應(yīng)網(wǎng)絡(luò)經(jīng)濟(jì)時(shí)代的網(wǎng)絡(luò)虛擬市場(chǎng)的新營(yíng)銷理論,是市場(chǎng)營(yíng)銷理念在新時(shí)期的發(fā)展和應(yīng)用。它能夠智能化地從大量的數(shù)據(jù)中提取出有用的信息和知識(shí),為企業(yè)的管理人員提供決策支持。數(shù)據(jù)挖掘技術(shù)使數(shù)據(jù)庫(kù)技術(shù)進(jìn)入了一個(gè)更高級(jí)的階段,它不僅能對(duì)過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,從而促進(jìn)信息的傳遞。
1.維護(hù)原有客戶,挖掘潛在新客戶
網(wǎng)絡(luò)營(yíng)銷中銷售商可以通過客戶的訪問記錄來(lái)挖掘出客戶的潛在信息,跟據(jù)客戶的興趣與需求向客戶有針對(duì)性的做個(gè)性化的推薦,制定出客戶滿意的產(chǎn)品服務(wù)。在做好維護(hù)原有老客戶的基礎(chǔ)上,通過對(duì)數(shù)據(jù)的挖掘,利用分類技術(shù),也可以尋找出潛在的客戶,通過對(duì)web日志的挖掘,可以對(duì)已經(jīng)存在的訪問者進(jìn)行分類,根據(jù)這種精細(xì)的分類,還可以找到潛在的新客戶。
2.制定營(yíng)銷策略,優(yōu)化促銷活動(dòng)
對(duì)于保留的商品訪問記錄和銷售記錄進(jìn)行挖掘,可以發(fā)現(xiàn)客戶的訪問規(guī)律,了解客戶消費(fèi)的生命周期,起伏規(guī)律,結(jié)合市場(chǎng)形勢(shì)的變化,針對(duì)不同的商品和客戶群制定不同的營(yíng)銷策略,保證促銷活動(dòng)針對(duì)客戶群有的放矢,收到意想不到的效果。
3.降低運(yùn)營(yíng)成本,提高競(jìng)爭(zhēng)力
網(wǎng)絡(luò)營(yíng)銷的管理者可以通過數(shù)據(jù)挖掘發(fā)現(xiàn)市場(chǎng)反饋的可靠信息,預(yù)測(cè)客戶未來(lái)的購(gòu)買行為,有針對(duì)性的進(jìn)行營(yíng)銷活動(dòng),還可以根據(jù)產(chǎn)品訪問者的瀏覽習(xí)慣來(lái)覺定產(chǎn)品廣告的位置,使廣告有針對(duì)性的起到宣傳的效果。從而提高廣告的投資回報(bào)率,從而能降低運(yùn)營(yíng)成本,提高且的核心競(jìng)爭(zhēng)力。
4.對(duì)客戶進(jìn)行個(gè)性化推薦
根據(jù)客戶采礦活動(dòng)對(duì)網(wǎng)絡(luò)規(guī)則,有針對(duì)性的網(wǎng)絡(luò)營(yíng)銷平臺(tái),提供“個(gè)性化”服務(wù)。個(gè)性化服務(wù)是在服務(wù)策略和服務(wù)內(nèi)容的不同客戶的不同,其本質(zhì)是客戶為中心的Web服務(wù)的需求。它通過收集和分析客戶資料,以了解客戶的利益和購(gòu)買行為,然后采取主動(dòng),以達(dá)到建議的服務(wù)。
5.完善網(wǎng)絡(luò)營(yíng)銷網(wǎng)站的設(shè)計(jì)
網(wǎng)站的建設(shè)者可以根據(jù)對(duì)客戶交易行為的記錄和反饋的情況對(duì)站點(diǎn)做出改進(jìn),站點(diǎn)的設(shè)計(jì)者可以根據(jù)這些信息進(jìn)一步優(yōu)化網(wǎng)站結(jié)構(gòu),站點(diǎn)導(dǎo)航等功能來(lái)提高站點(diǎn)的點(diǎn)擊率,為客戶提供更為方便的瀏覽方式。利用關(guān)聯(lián)規(guī)則,
參考文獻(xiàn)1 馮英健著,《網(wǎng)絡(luò)營(yíng)銷基礎(chǔ)與實(shí)踐》,清華大學(xué)出版社,2002年1月第1版
關(guān)鍵詞:數(shù)據(jù)挖掘;技術(shù);應(yīng)用;分析
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2012) 01-0000-02
Application Analysis of the Data Mining Technology
Zhang Yihui
(Shandong Polytechnic,Jinan250104,China)
Abstract:With the advent and popularization of the Internet age,a lot of information get together,in the quick and easy at the same time to give people the agent has brought us a problem,how is the large amount of data to digest and true and false identification,followed by information how secure is to ensure that lay their unified approach method.This is a new term-data mining technology.Data mining is a relatively new database technology,there is a wide range of practical applications demand;made a comprehensive overview of data mining technology,citing a data mining system composition and mining method.
Keywords:Data mining;Technology;Application;Analysis
何為數(shù)據(jù)挖掘,所謂數(shù)據(jù)挖掘(Data Mining)在傳統(tǒng)的定義就是提取隱含在大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。意思簡(jiǎn)單來(lái)講就是從一大堆亂七八糟的信息數(shù)據(jù)里提取一些對(duì)自己有用的數(shù)據(jù)知識(shí)。
一、數(shù)據(jù)挖掘的概念
從面的定義中我們對(duì)數(shù)據(jù)挖掘有了一個(gè)模糊的了解,其實(shí)數(shù)據(jù)挖掘技術(shù)通俗的從字面意思理解就是從數(shù)據(jù)中挖掘有用的數(shù)據(jù)。我國(guó)一些單位普遍都采用了計(jì)算機(jī)技術(shù)來(lái)處理單位的一些業(yè)務(wù),因?yàn)橛?jì)算機(jī)的分析處理數(shù)據(jù)的能力比較強(qiáng),所有產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),通過計(jì)算機(jī)來(lái)分析這一大批數(shù)據(jù)不單單是為了研究的需要,更為重要的是從這些雜亂的數(shù)據(jù)中分析提取一些對(duì)自身企業(yè)有價(jià)值的數(shù)據(jù)信息。一些企業(yè)單位要從大批量的數(shù)據(jù)中獲取對(duì)自己有用的數(shù)據(jù)來(lái)進(jìn)行企業(yè)運(yùn)作以及提高自身企業(yè)的競(jìng)爭(zhēng)能力,這就好比從礦石中提煉金子一樣,提取的都是精華。所以數(shù)據(jù)挖掘越來(lái)越得到人們的重視。
隨著數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)核心技術(shù)研究的逐步深入,其核心模塊已經(jīng)強(qiáng)有力的形成了三大的技術(shù)領(lǐng)域:數(shù)據(jù)庫(kù)技術(shù)、人工智能和數(shù)理統(tǒng)計(jì)。隨著高性能的關(guān)系數(shù)據(jù)庫(kù)引擎的廣泛數(shù)據(jù)集成和相關(guān)理論研究和相關(guān)技術(shù)的成熟,,讓數(shù)據(jù)庫(kù)挖掘技術(shù)進(jìn)入了實(shí)用階段。
在國(guó)際上,由美國(guó)人工智能協(xié)會(huì)主辦的KDD(數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),簡(jiǎn)稱KDD)已經(jīng)漸漸被人們所接受,已經(jīng)召開了數(shù)十次國(guó)際研討會(huì),隨著規(guī)模的不斷壯大,在注重多種發(fā)現(xiàn)策略和技術(shù)的集成,理論研究指導(dǎo)實(shí)踐應(yīng)用,以及多種學(xué)科之間的相互滲透的基礎(chǔ)上,研究重點(diǎn)也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,成為目前計(jì)算機(jī)領(lǐng)域的研究熱點(diǎn);與國(guó)外相比,國(guó)內(nèi)研究起步較晚,主要是處在基礎(chǔ)理論上的研究。國(guó)家自然科學(xué)基金對(duì)于該領(lǐng)域的研究項(xiàng)目是1993年首次支持。目前,知識(shí)發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究在國(guó)內(nèi)的許多知名的高等院校和科研機(jī)構(gòu)已經(jīng)開展。
二、數(shù)據(jù)挖掘系統(tǒng)的組成
以下是典型的數(shù)據(jù)挖掘的幾個(gè)組成部分:
(一)數(shù)據(jù)挖掘所操作的最直接的對(duì)象就是數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)是一個(gè)或一組可以在數(shù)據(jù)上進(jìn)行數(shù)據(jù)收集、存儲(chǔ)、處理和集成的數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他類型的信息庫(kù)。
(二)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器:在數(shù)據(jù)處理過程中,根據(jù)客戶的數(shù)據(jù)挖掘請(qǐng)求的指令信息,數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器負(fù)責(zé)提取相關(guān)數(shù)據(jù)反饋信息。
(三)知識(shí)庫(kù):數(shù)據(jù)挖掘的關(guān)鍵技術(shù)就是知識(shí)庫(kù),它是用于指導(dǎo)數(shù)據(jù)搜索、查找、分析或擬合評(píng)估模式的興趣度的領(lǐng)域知識(shí)集。另外將數(shù)據(jù)信息集中屬性或?qū)傩灾到M成不同的數(shù)據(jù)抽象層的概念分層和用戶確信方面的知識(shí)數(shù)據(jù)也包括在里面。
(四)數(shù)據(jù)挖掘引擎:用于特征化、關(guān)聯(lián)、分類、聚類分析以及演變和偏差分析的一組功能模塊,這是數(shù)據(jù)挖掘系統(tǒng)的基本組成。
(五)模式評(píng)估模塊:這是數(shù)據(jù)挖掘?qū)崿F(xiàn)的關(guān)鍵所在,在數(shù)據(jù)挖掘過程中參照興趣度做度量,并與數(shù)據(jù)挖掘模塊交互配合,以便將數(shù)據(jù)搜索、歸并、聚焦在有趣模式的操作。根據(jù)所用數(shù)據(jù)挖掘方法的不同,模式評(píng)估模塊也可以使用興趣度閥值作為評(píng)定參數(shù),去過濾發(fā)現(xiàn)的模式挖掘數(shù)據(jù),也可以與數(shù)據(jù)挖掘模塊集成在一起使用。
(六)圖形用戶界面:是以圖形界面的形式給出用戶數(shù)據(jù)查詢操作或指令任務(wù),并提供中間參考信息提示、幫助搜索、確定聚焦興趣度,根據(jù)數(shù)據(jù)挖掘的中間結(jié)果進(jìn)行探索式數(shù)據(jù)挖掘的操作模塊,是在用戶和數(shù)據(jù)挖掘系統(tǒng)之間通信的橋梁,是用戶與系統(tǒng)交互的中介。
三、數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘方法的來(lái)源主要是由人工智能和機(jī)器學(xué)習(xí)的方法發(fā)展來(lái)的,結(jié)合傳統(tǒng)的統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)方法以及科學(xué)計(jì)算可視化技術(shù),以數(shù)據(jù)庫(kù)為研究對(duì)象,形成的數(shù)據(jù)挖掘的方法和技術(shù)。數(shù)據(jù)挖掘是數(shù)據(jù)和信息系統(tǒng)及其應(yīng)用的學(xué)科前沿,是綜合了數(shù)據(jù)庫(kù)、專家系統(tǒng)和可視化等領(lǐng)域的相關(guān)技術(shù)的多學(xué)科和多種網(wǎng)絡(luò)技術(shù)交叉結(jié)合的新領(lǐng)域,在商業(yè)利益的強(qiáng)大推動(dòng)下,每年都有新的數(shù)據(jù)挖掘方法和模型的出現(xiàn),數(shù)據(jù)挖掘的方法和技術(shù)可以分為六大類。
(一)關(guān)聯(lián)分析(Association Analysis)。在數(shù)據(jù)處理中,隨著大量數(shù)據(jù)不停的收集、存儲(chǔ)和處理,關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘中發(fā)現(xiàn)大量數(shù)據(jù)項(xiàng)集之間有趣的關(guān)聯(lián)和相互聯(lián)系,因此許多業(yè)界人士對(duì)于通過關(guān)聯(lián)規(guī)則從相關(guān)數(shù)據(jù)庫(kù)中挖掘有用的信息,并從中組織和處理這些有用的數(shù)據(jù)是越來(lái)越感興趣。
(二)聚類方法(Clustering Approach)。在數(shù)據(jù)處理中,按一定的規(guī)則(參照距離或相似尺寸等)將數(shù)據(jù)分成一系列相互區(qū)別的數(shù)據(jù)組或數(shù)據(jù)集,這種操作不需要用戶的事先提示相關(guān)操作和背景知識(shí)而去直接挖掘、發(fā)現(xiàn)有意義的數(shù)據(jù)結(jié)構(gòu)或數(shù)據(jù)模式的方法。
(三)決策樹方法(Decision Tree Approach)。該方法是一種常用于預(yù)測(cè)模型的算法,具有信息描述簡(jiǎn)單、查找速度快的特點(diǎn),適合于大規(guī)模的數(shù)據(jù)挖掘。建立決策樹的過程:首先根據(jù)信息論中的信息增益尋找數(shù)據(jù)庫(kù)中具有最大信息量的字段,從中找到潛在的、有價(jià)值的信息,然后建立決策樹的節(jié)點(diǎn),再根據(jù)字段的不同取值建立樹的各個(gè)分枝,然后在每個(gè)分枝子集上分別遞歸上述過程,即可。
(四)神經(jīng)網(wǎng)絡(luò)方法(Neural Network Approach)。神經(jīng)網(wǎng)絡(luò)由于本身的特性適合解決數(shù)據(jù)挖掘問題,因此,近年來(lái)越來(lái)越被關(guān)注。以HEBB學(xué)習(xí)規(guī)則和MP模型為基礎(chǔ)的模擬人腦神經(jīng)元方法,建立了三大類多種神經(jīng)網(wǎng)絡(luò)模型:反饋式網(wǎng)絡(luò)模型、前饋式網(wǎng)絡(luò)模型和自組織網(wǎng)絡(luò)模型。
(五)遺傳算法(Genetic Algorithms)。遺傳算法是模擬生物自然選擇與遺傳機(jī)理的(進(jìn)化過程)隨機(jī)的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個(gè)基本算子組成的仿生全局優(yōu)化方法。遺傳算法所具有的特有性質(zhì)已在數(shù)據(jù)挖掘中發(fā)揮了顯著作用。
(六)可視化方法(Visualization Approach)。可視化方法增強(qiáng)人們認(rèn)識(shí)能力,拓寬了傳統(tǒng)的圖表展示功能,增強(qiáng)了用戶對(duì)數(shù)據(jù)反饋的感知度,使用戶對(duì)數(shù)據(jù)的剖析更加清楚。例如,在數(shù)據(jù)庫(kù)表中,將多維數(shù)據(jù)變成多種線性圖形(如線圖、柱圖),增加直觀性,使用戶更好、更快速的理解和掌握,并充分揭示數(shù)據(jù)的內(nèi)涵、內(nèi)在本質(zhì)及規(guī)律起了很大的作用。
四、數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域
數(shù)據(jù)挖掘所應(yīng)用的領(lǐng)域非常廣泛,目前,數(shù)據(jù)挖掘應(yīng)用最集中的領(lǐng)域包括醫(yī)療保健、金融、司法、市場(chǎng)、零售業(yè)、制造業(yè)、工程與科學(xué)等。但每個(gè)領(lǐng)域又有其特定的應(yīng)用問題和應(yīng)用背景。
(一)醫(yī)療保健。在我過國(guó),醫(yī)療保健行業(yè)有大量的數(shù)據(jù)需要處理。這個(gè)行業(yè)中數(shù)據(jù)挖掘最關(guān)鍵的任務(wù)是進(jìn)行數(shù)據(jù)處理理,系統(tǒng)可以從大型多變的數(shù)據(jù)庫(kù)中發(fā)現(xiàn)并整理,預(yù)測(cè)醫(yī)療保健費(fèi)用。由實(shí)驗(yàn)室開發(fā)的解釋保健數(shù)據(jù),在定量范圍內(nèi)解釋偏差,生成報(bào)表。
(二)金融。數(shù)據(jù)挖掘技術(shù)在金融行業(yè)中的應(yīng)用不但指的是對(duì)金融事務(wù)數(shù)據(jù)的開采,能夠發(fā)現(xiàn)某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并且還可以融市場(chǎng)的變化趨勢(shì)。
(三)司法。在司法方面,數(shù)據(jù)挖掘技術(shù)可應(yīng)用在案件調(diào)查、詐騙監(jiān)測(cè)、洗錢認(rèn)證、犯罪組織分析等工作中,這將給司法工作帶來(lái)巨大的收益,例如:美國(guó)財(cái)政部開發(fā)的系統(tǒng),對(duì)各類金融事務(wù)進(jìn)行監(jiān)測(cè),識(shí)別洗錢、詐騙等。
(四)數(shù)字城市。數(shù)據(jù)挖掘技術(shù)應(yīng)用于數(shù)字城市建設(shè)中的數(shù)據(jù)整合系統(tǒng)是指通過對(duì)不同的數(shù)據(jù)庫(kù)資源進(jìn)行連接,根據(jù)需要獲取不同的數(shù)據(jù)庫(kù)資源的數(shù)據(jù)內(nèi)容,組合形成所需要的數(shù)據(jù)資源,支持分析決策。在這種機(jī)制下,即實(shí)現(xiàn)了數(shù)據(jù)集市的建立,又解決了與城市信息化建設(shè)中業(yè)已建成的各種信息系統(tǒng)運(yùn)行上獨(dú)立,數(shù)據(jù)上統(tǒng)一的問題。
(五)制造業(yè)。制造業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行零部件故障診斷、資源優(yōu)化、生產(chǎn)過程分析等。例如進(jìn)行彩色掃描儀的生產(chǎn)過程分析。他們基于大約公司個(gè)參數(shù)建立了一個(gè)自動(dòng)數(shù)據(jù)收集系統(tǒng),產(chǎn)生了難以手工處理的大量數(shù)據(jù),通過使用,工程師們能夠?qū)?shù)據(jù)進(jìn)行分析并對(duì)最重要的參數(shù)進(jìn)行認(rèn)定。
五、利用WEKA編寫算法
作為數(shù)據(jù)挖掘愛好者自然要對(duì)WEKA的源代碼進(jìn)行分析并以及改進(jìn),努力寫出自己的數(shù)據(jù)挖掘算法。我一直覺得對(duì)于機(jī)器學(xué)習(xí)算法來(lái)說(shuō),weka是很有特色的工具,算法非常多。而且還有諸如clementine之類的數(shù)據(jù)流處理工具。相比之下,clementine的算法就會(huì)失色很多。但是weka的可視化做的不好。這是它的缺點(diǎn)。如果在weka的基礎(chǔ)上再做些二次開發(fā),加強(qiáng)可視化的應(yīng)用應(yīng)該很不錯(cuò)。最近看到一本書叫《可視化數(shù)據(jù)》,作者竟然包裝了java的圖形庫(kù),自己創(chuàng)作出了個(gè)processing語(yǔ)言來(lái)做數(shù)據(jù)可視化,似乎效果不錯(cuò),而且也是開源的。如果能在這個(gè)基礎(chǔ)上做些研發(fā)應(yīng)該會(huì)不錯(cuò)的。
六、結(jié)語(yǔ)
在現(xiàn)今社會(huì),數(shù)據(jù)挖掘技術(shù)已經(jīng)可以被應(yīng)用與所有的領(lǐng)域和行業(yè)中。在人們生活里的各個(gè)方面幾乎都可以用到數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)不但給我們的日常生活帶來(lái)了巨大的改變和影響,并且這種影響還深深的改變著我們的生活方式。
參考文獻(xiàn):
[1]韓少鋒,陳立潮.數(shù)據(jù)挖掘技術(shù)及應(yīng)用綜述[J].機(jī)械管理開發(fā),2006,2
[2]顏惠,吳小穗.MetaCrawler集成搜索引擎[J].圖書館工作與究,2002,3:46-47
[3]周黎明,邱均平.基于網(wǎng)絡(luò)的內(nèi)容分析法[J].情報(bào)學(xué)報(bào),2005,5:594-599
[4]Lisa Sokol Data Mining in the Real World Part of the Conference on Data Mining and Knowledge Discovery:Theory.Tool,and Technology.Orlando.Florida-April,1999
一、海量數(shù)據(jù)挖掘關(guān)鍵技術(shù)隨時(shí)代而變化
所謂海量數(shù)據(jù)挖掘,是指應(yīng)用一定的算法,從海量的數(shù)據(jù)中發(fā)現(xiàn)有用的信息和知識(shí)。海量數(shù)據(jù)挖掘關(guān)鍵技術(shù)主要包括海量數(shù)據(jù)存儲(chǔ)、云計(jì)算、并行數(shù)據(jù)挖掘技術(shù)、面向數(shù)據(jù)挖掘的隱私保護(hù)技術(shù)和數(shù)據(jù)挖掘集成技術(shù)。
1.海量數(shù)據(jù)存儲(chǔ)
海量存儲(chǔ)系統(tǒng)的關(guān)鍵技術(shù)包括并行存儲(chǔ)體系架構(gòu)、高性能對(duì)象存儲(chǔ)技術(shù)、并行I/O訪問技術(shù)、海量存儲(chǔ)系統(tǒng)高可用技術(shù)、嵌入式64位存儲(chǔ)操作系統(tǒng)、數(shù)據(jù)保護(hù)與安全體系、綠色存儲(chǔ)等。
海量數(shù)據(jù)存儲(chǔ)系統(tǒng)為云計(jì)算、物聯(lián)網(wǎng)等新一代高新技術(shù)產(chǎn)業(yè)提供核心的存儲(chǔ)基礎(chǔ)設(shè)施;為我國(guó)的一系列重大工程如平安工程等起到了核心支撐和保障作用;海量存儲(chǔ)系統(tǒng)已經(jīng)使用到石油、氣象、金融、電信等國(guó)家重要行業(yè)與部門。發(fā)展具有自主知識(shí)產(chǎn)權(quán)、達(dá)到國(guó)際先進(jìn)水平的海量數(shù)據(jù)存儲(chǔ)系統(tǒng)不僅能夠填補(bǔ)國(guó)內(nèi)在高端數(shù)據(jù)存儲(chǔ)系統(tǒng)領(lǐng)域的空白,而且可以滿足國(guó)內(nèi)許多重大行業(yè)快速增長(zhǎng)的海量數(shù)據(jù)存儲(chǔ)需要,并創(chuàng)造巨大的經(jīng)濟(jì)效益。
2.云計(jì)算
目前云計(jì)算的相關(guān)應(yīng)用主要有云物聯(lián)、云安全、云存儲(chǔ)。云存儲(chǔ)是在云計(jì)算(cloud computing)概念上延伸和發(fā)展出來(lái)的新概念,是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能的一個(gè)系統(tǒng)。
當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲(chǔ)和管理時(shí),云計(jì)算系統(tǒng)中就需要配置大量的存儲(chǔ)設(shè)備,那么云計(jì)算系統(tǒng)就轉(zhuǎn)變成為一個(gè)云存儲(chǔ)系統(tǒng),所以云存儲(chǔ)是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng)。
3.并行數(shù)據(jù)挖掘技術(shù)
高效率的數(shù)據(jù)挖掘是人們所期望的,但當(dāng)數(shù)據(jù)挖掘的對(duì)象是一個(gè)龐大的數(shù)據(jù)集或是許多廣泛分布的數(shù)據(jù)源時(shí),效率就成為數(shù)據(jù)挖掘的瓶頸。隨著并行處理技術(shù)的快速發(fā)展,用并行處理的方法來(lái)提高數(shù)據(jù)挖掘效率的需求越來(lái)越大。
并行數(shù)據(jù)挖掘涉及到了一系列體系結(jié)構(gòu)和算法方面的技術(shù),如硬件平臺(tái)的選擇(共享內(nèi)存的或者分布式的)、并行的策略(任務(wù)并行、數(shù)據(jù)并行或者任務(wù)并行與數(shù)據(jù)并行結(jié)合)、負(fù)載平衡的策略(靜態(tài)負(fù)載平衡或者動(dòng)態(tài)負(fù)載平衡)、數(shù)據(jù)劃分的方式(橫向的或者縱向的)等。處理并行數(shù)據(jù)挖掘的策略主要涉及三種算法:并行關(guān)聯(lián)規(guī)則挖掘算法、并行聚類算法和并行分類算法。
4.面向數(shù)據(jù)挖掘的隱私保護(hù)技術(shù)
數(shù)據(jù)挖掘在產(chǎn)生財(cái)富的同時(shí)也隨之出現(xiàn)了隱私泄露的問題。如何在防止隱私泄露的前提下進(jìn)行數(shù)據(jù)挖掘,是信息化時(shí)代各行業(yè)現(xiàn)實(shí)迫切的需求。
基于隱私保護(hù)的數(shù)據(jù)挖掘是指采用數(shù)據(jù)擾亂、數(shù)據(jù)重構(gòu)、密碼學(xué)等技術(shù)手段,能夠在保證足夠精度和準(zhǔn)確度的前提下,使數(shù)據(jù)挖掘者在不觸及實(shí)際隱私數(shù)據(jù)的同時(shí),仍能進(jìn)行有效的挖掘工作。
受數(shù)據(jù)挖掘技術(shù)多樣性的影響,隱私保護(hù)的數(shù)據(jù)挖掘方法呈現(xiàn)多樣性。基于隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)可從4個(gè)層面進(jìn)行分類:從數(shù)據(jù)的分布情況,可以分為原始數(shù)據(jù)集中式和分布式兩大類隱私保護(hù)技術(shù);從原始數(shù)據(jù)的隱藏情況,可以分為對(duì)原始數(shù)據(jù)進(jìn)行擾動(dòng)、替換和匿名隱藏等隱私保護(hù)技術(shù);從數(shù)據(jù)挖掘技術(shù)層面,可以分為針對(duì)分類挖掘、聚類挖掘、關(guān)聯(lián)規(guī)則挖掘等隱私保護(hù)技術(shù);從隱藏內(nèi)容層面,可以分為原始數(shù)據(jù)隱藏、模式隱藏。
5.數(shù)據(jù)挖掘集成技術(shù)
數(shù)據(jù)挖掘體系框架由三部分組成:數(shù)據(jù)準(zhǔn)備體系、建模與挖掘體系、結(jié)果解釋與評(píng)價(jià)體系。其中最為核心的部分是建模與挖掘體系,它主要是根據(jù)挖掘主題和目標(biāo),通過挖掘算法和相關(guān)技術(shù)(如統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫(kù)、相關(guān)軟件技術(shù)等),對(duì)數(shù)據(jù)進(jìn)行分析,挖掘出數(shù)據(jù)之間內(nèi)在的聯(lián)系和潛在的規(guī)律。大體上,數(shù)據(jù)挖掘應(yīng)用集成可分為幾類:數(shù)據(jù)挖掘算法的集成、數(shù)據(jù)挖掘與數(shù)據(jù)庫(kù)的集成、數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)的集成、數(shù)據(jù)挖掘與相關(guān)軟件技術(shù)的集成、數(shù)據(jù)挖掘與人工智能技術(shù)的集成等。
二、海量數(shù)據(jù)挖掘應(yīng)用廣泛但深度不足
2011年中國(guó)數(shù)據(jù)挖掘軟件市場(chǎng)規(guī)模達(dá)接近2億元,2012-2014年還將快速增長(zhǎng)。從數(shù)據(jù)挖掘應(yīng)用行業(yè)上看,國(guó)內(nèi)大多數(shù)的用戶都來(lái)自電信、銀行、保險(xiǎn)、稅務(wù)、政府等領(lǐng)域。應(yīng)用主題主要包含:消費(fèi)者行為分析、信用評(píng)分與風(fēng)險(xiǎn)管理、欺詐行為偵測(cè)、購(gòu)物籃分析等方面。目前,國(guó)內(nèi)數(shù)據(jù)挖掘應(yīng)用仍停留在初級(jí)階段,行業(yè)企業(yè)大規(guī)模的運(yùn)用數(shù)據(jù)挖掘技術(shù)尚需時(shí)日。
1.國(guó)內(nèi)數(shù)據(jù)挖掘應(yīng)用可分為3個(gè)層次
從數(shù)據(jù)挖掘應(yīng)用層次上看,大體可以分為三個(gè)層次:第一層次是把挖掘工具當(dāng)作單獨(dú)的工具來(lái)用,不用專門建設(shè)系統(tǒng);第二層次則是把數(shù)據(jù)挖掘模塊嵌入到系統(tǒng)中,成為部門級(jí)應(yīng)用;第三層次是企業(yè)級(jí)應(yīng)用,相當(dāng)于把挖掘系統(tǒng)作為整個(gè)企業(yè)運(yùn)營(yíng)的中央處理器。目前,國(guó)內(nèi)的數(shù)據(jù)挖掘應(yīng)用的企業(yè)基本處于第一層次,偶爾某些企業(yè)用戶能夠做到第二層次。
2.國(guó)內(nèi)有代表性的數(shù)據(jù)挖掘行業(yè)應(yīng)用情況簡(jiǎn)評(píng)
(1)通信業(yè):國(guó)內(nèi)應(yīng)用數(shù)據(jù)挖掘的企業(yè)還是以通信企業(yè)(移動(dòng)、聯(lián)通、電信)為首,應(yīng)用的深度和廣度都處于領(lǐng)先地位。
(2)互聯(lián)網(wǎng)企業(yè):隨著電子商務(wù)的普及,各大商務(wù)網(wǎng)站已經(jīng)大規(guī)模使用數(shù)據(jù)挖掘技術(shù),并且迅速?gòu)闹腥〉蒙虡I(yè)價(jià)值。例如,國(guó)內(nèi)很多網(wǎng)上商城已經(jīng)開始使用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶聚類或者商品關(guān)聯(lián)推廣。另外,搜索引擎企業(yè)使用數(shù)據(jù)挖掘技術(shù)的需求也非常迫切。
(3)政府部門:我國(guó)政府部門中使用數(shù)據(jù)挖掘技術(shù)比較領(lǐng)先的是稅務(wù)系統(tǒng)。數(shù)據(jù)挖掘在電子政務(wù)中的應(yīng)用,更多的涉及到報(bào)表填制、數(shù)據(jù)統(tǒng)計(jì)。
(4)國(guó)內(nèi)金融行業(yè):操作型數(shù)據(jù)挖掘應(yīng)用在國(guó)內(nèi)金融行業(yè)應(yīng)用廣泛,尤其是信貸評(píng)審領(lǐng)域。中小型銀行數(shù)據(jù)挖掘需求將是未來(lái)金融行業(yè)數(shù)據(jù)挖掘市場(chǎng)的主要增長(zhǎng)點(diǎn)。未來(lái)5年時(shí)間里,數(shù)據(jù)挖掘應(yīng)用在金融行業(yè)仍將高速發(fā)展。
預(yù)計(jì)1個(gè)月內(nèi)審稿 省級(jí)期刊
北京市統(tǒng)計(jì)局主辦
預(yù)計(jì)1個(gè)月內(nèi)審稿 統(tǒng)計(jì)源期刊
工業(yè)和信息化部主辦
預(yù)計(jì)1個(gè)月內(nèi)審稿 省級(jí)期刊
貴州出版集團(tuán)公司主辦
預(yù)計(jì)1個(gè)月內(nèi)審稿 部級(jí)期刊
中國(guó)人民公安大學(xué)法學(xué)院主辦
預(yù)計(jì)1個(gè)月內(nèi)審稿 部級(jí)期刊
信息產(chǎn)業(yè)部主辦
預(yù)計(jì)1個(gè)月內(nèi)審稿 部級(jí)期刊
中國(guó)社會(huì)科學(xué)院主辦