天码AV无码一区二区三区四区,9999国产精品欧美久久久久久,成人网站免费大全日韩国产,国产呻吟久久久久久久92

大數據挖掘技術(shù)之DM經(jīng)典模型
技術(shù)論壇

  大數據挖掘技術(shù)之DM經(jīng)典模型下面我們將探討如何用模型來(lái)表示簡(jiǎn)單的、描述性的統計數據。如果我們可以描述所要找的事物,那么想要找到它就會(huì )變得很容易。這就是相似度模型的來(lái)歷——某事物與所要尋找的事物越相似,其得分就越高下面就是查詢(xún)模型,該模型正在直銷(xiāo)行業(yè)很受歡迎,并廣泛用于其它領(lǐng)域。樸素貝葉斯模型是表查找模型中一種非常有用的泛化模型,通常表查詢(xún)模型適用于 較低的維度,而樸素貝葉斯模型準許更多的維度加入。還有線(xiàn)性回歸和邏輯回歸模型,都是最常見(jiàn)的預測建模技術(shù)?;貧w模型,用于表示散點(diǎn)圖中兩個(gè)變量之間的關(guān) 系。多元回歸模型,這個(gè)準許多個(gè)單值輸入。隨后介紹邏輯回歸分析,該技術(shù)擴展了多元回歸以限制其目標范圍,例如:限定概率估計。還有固定效應和分層回歸模 型,該模型可將回歸應用于個(gè)人客戶(hù),在許多以客戶(hù)為中心的數據挖掘技術(shù)之間搭建了一座橋梁相似度模型中需要將觀(guān)察值和原型進(jìn)行比較,以得到相應的相似度得分。觀(guān)察值與原型相似度越高,其得分也就越高。一種度量相似度的方法是測量距離。觀(guān) 察值與原型值之間的距離越近,觀(guān)察值的得分就越高。轉摘 如何控制鏡頭的成像質(zhì)量!當每個(gè)客戶(hù)細分都有一個(gè)原型時(shí),該模型可以根據得分把客戶(hù)分配到與其最相似的原型所在的客戶(hù)細分中相似度模型有原型和一個(gè)相似度函數構成。新數據通過(guò)計算其相似度函數,就可以計算出相似度得分通過(guò)出版社的讀者比一般大眾要富有,而且接受教育的程度要高為例。通常前者要比后者在富有程度、教育程度的比例大三倍。這樣我們就可以給讀者一個(gè)訊息——“工資很高,并且受過(guò)良好的教育”如果要把對讀者的描述表示成一個(gè)可以識別該雜志潛在的讀者的模型,就需要對理想的讀者做出精確的定義,并以此來(lái)量化潛在讀者與理想讀者之間的相似程度相似度和距離是同一概念的兩種不同描述方式,但是它們度量的方向不同。使用距離作為度量指標時(shí),如果兩個(gè)事物彼此非??拷?,那么兩者就很相似。所以當兩者距離很小時(shí),相似度就會(huì )很高例如:出版社的理想讀者的受教育程度是16年,美國攝影師拍攝自己母親的性行為照片并公開(kāi)發(fā),年收入100000美元。那么受教育14年,年收入75000美元的潛在客戶(hù)與理想客戶(hù)之間的相似度 是多少呢?另外它們與受教育12年,并且年收入為150000美元的潛在客戶(hù)又有多少相似呢?這時(shí)候,我們要選擇一個(gè)度量的標準,歐式距離。當我們計算一 潛在客戶(hù)與理想客戶(hù)(x=16,y=100000)之間的距離時(shí),就會(huì )發(fā)現收入在計算中占了主導地位,因為它的取值比教育年限大的多得多。這就引入另一個(gè) 問(wèn)題:度量尺度。解決方法:將兩值分別減去相應的平均值然后除以相應的標準差。這樣就把兩者轉化成分數,然后用分數代替原來(lái)的值來(lái)計算歐式距離歐式距離僅計算距離方法之一。這里才采用歐式距離只是為了將原型目標的一種統計描述與某種距離函數結合起來(lái),搭建一種相似度模型。有了潛在用戶(hù)與理想客戶(hù)之間的距離,企業(yè)宣傳片制作就可以對潛在客戶(hù)排序,或者將距離作為另一種計算的輸入,得到預期收入或相應概率構建相似度模型,首先是要對原型進(jìn)行描述,或得到一個(gè)用于與其他對象進(jìn)行比較的理想對象。這些描述必須表示為度量,對于那些與理想值較近或較遠的對象,這些變量的取值要明顯不同實(shí)現數據挖掘模型的一個(gè)簡(jiǎn)單方法就是查詢(xún)表。表查詢(xún)模型思想就是:相似的人所作出的反應也相似。對一個(gè)新觀(guān)測值的評分涉及兩個(gè)步驟。一、為觀(guān)測值指定一個(gè)特定的標簽或主鍵。主鍵對應于查詢(xún)表中的一個(gè)單元格。二、被分配到某一個(gè)單元格的所有記錄都會(huì )有一個(gè)得分,該分值在模型訓練時(shí)就被賦予該單元格分配主鍵的方式有多種。決策樹(shù)模型適用了規則集將觀(guān)測值分配到特定的葉節點(diǎn),葉節點(diǎn)的ID就可以作為一個(gè)可用于查詢(xún)得分的主鍵。聚類(lèi)技術(shù)為記錄指定標簽,這里的聚類(lèi)標簽就可以作為查詢(xún)主鍵構建查詢(xún)表,一、為查詢(xún)表選擇輸入變量。將訓練集中的每條記錄精確地分配到該表中的一個(gè)單元格中。使用訓練集中的統計數據來(lái)刻畫(huà)單元格的特征,這些 統計數據包括平均值、標準差以及落入該單元格的訓練實(shí)例個(gè)數。在為模型評分的時(shí)候會(huì )用到這些統計數據。分數可以是數值型目標的平均值,也可以是屬于某一特 定類(lèi)別的比例,或者是單元格中占主導地位的類(lèi)別每個(gè)維度都應該是一個(gè)對目標有影響的變量。理想情況,輸入變量不應該彼此相關(guān),實(shí)際上,很難避免之間不相關(guān)。相關(guān)變量的實(shí)際影響是,訓練完成后有些單元格僅含有幾個(gè)訓練實(shí)例,這會(huì )使得估計值的置信度偏低。實(shí)際情況可能好點(diǎn),因為要評分的新數據在那些單元格中也是稀疏的例如:在RFM模型中,有一個(gè)維度是采購總數,還有一個(gè)維度是整個(gè)生存期的花費。在兩個(gè)變量高度相關(guān),因為通常情況下,額外的購買(mǎi)會(huì )創(chuàng )造額外的收入。很少有記錄會(huì )落入到購買(mǎi)數量最大而收入卻很少,或收入很高而采購量卻很少的單元格情況應該避免使用高度相關(guān)的變量作為查詢(xún)表的維度,因為這些相關(guān)變量會(huì )導致大量的稀疏的單元格。包含訓練樣本過(guò)少的單元格會(huì )產(chǎn)生置信度偏低的目標估計值對維度數的主要限制是單元格中訓練記錄的數量。在維度數與每個(gè)維度上分到的訓練樣本數之間有一個(gè)權衡。使用較少的維度,可以在每一 個(gè)維度上進(jìn)行更加精細的劃分。在實(shí)際處理過(guò)程中,可能會(huì )出現該單元格中什么都沒(méi)有,有的時(shí)候這種情況是確實(shí)存在的。這種異常情況,表中應該包含具有默認得 分的單元格,這樣就可為那些與任意主鍵不匹配的記錄分配得分。典型的默認異常單元格得分,就是平均值在實(shí)際的過(guò)程中,并不需要,每一個(gè)類(lèi)別劃分一個(gè)維度。影視視頻制作維度的分割應該依實(shí)而用。對于一個(gè)維度的合理劃分是按高、中、企業(yè)宣傳片制作低劃分,而對另一個(gè)維度的合理劃 分可能是按照百分比來(lái)劃分。有的時(shí)候,根據業(yè)務(wù)規則來(lái)定分割點(diǎn),遵循這些特定的分割點(diǎn)劃分記錄可能那個(gè)比等分劃分更有意義。有監督的分割,可以用于確保分 割的有效性。這個(gè)后面在討論維度劃分好以后,在訓練集上計算每個(gè)單元格的得分就簡(jiǎn)單了。對于數值型目標而言,得分=平均值。對于類(lèi)別目標,每個(gè)類(lèi)別會(huì )有一個(gè)得分=每個(gè)單元格類(lèi)標簽的比例。這樣對于每個(gè)類(lèi)都有一個(gè)概率估計,即待評分的數據記錄屬于該類(lèi)的概率有些單元格沒(méi)有分配到足夠多的數據,這會(huì )導致目標估計值的置信度較低。對于這類(lèi)單元格該怎么辦?一、減少每個(gè)維度上的劃分數量。二、減少定義稀疏單元格的維度數例如:構建某購物網(wǎng)站物品清單價(jià)格的競爭力模型?;谇鍐问煜じ?,點(diǎn)擊吸引力的分析考慮四個(gè)維度:對于一些比較受歡迎的產(chǎn)品,類(lèi)似生化危機或是變形金剛的懸念驚悚,使用這四個(gè)維度是有道理的。而對于不受歡迎的商品,沒(méi)有足夠多的清單來(lái)支持所有維度,所以要丟棄一些維度。對于一些產(chǎn) 品,放棄星期幾這一維度就OK。對于已協(xié)商產(chǎn)品,只是基于三個(gè)維度而不是基于四個(gè)維度之間的比較。對于一些產(chǎn)品,甚至只留下一個(gè)維度,對于這類(lèi)產(chǎn)品,要做 的就是持續刪除維度并合并單元格,直到每個(gè)單元格含有足夠的多的數據RFM模型,稱(chēng)為近期、頻率以及貨幣。RFM背后的邏輯很簡(jiǎn)單。近期下單的客戶(hù)在不久的將來(lái)再次購買(mǎi)的概率可能性非常大。在過(guò)去有許多購買(mǎi)記錄的顧 客更有可能在不久的將來(lái)再次購買(mǎi),并且在過(guò)去消費較多的客戶(hù)更有可能在將來(lái)消費更多。RFM是一種最大化現有客戶(hù)收益的技術(shù),而不是吸引新客戶(hù)的技術(shù)將客戶(hù)分配大RFM單元中,三個(gè)RFM變量需要轉化為三個(gè)量化指標。近期:距離上次購買(mǎi)的天數或周數,用于得到R的得分第二個(gè)變量頻率,通常是以前下單的總數,記錄F的得分。最后一個(gè)是客戶(hù)生存期中的總的花費,該值用于創(chuàng )建M的得分。每個(gè)維度5等分。由于維度之間具 有相關(guān)性,如F維和M維,所以各個(gè)單元格的客戶(hù)數量并不相等。要做的就是將所有的數據都分配到合適的單元格中,而且每個(gè)單元格要有足夠多的記錄,從而目標 估計值具有一個(gè)可以接受的置信度對于每個(gè)營(yíng)銷(xiāo)活動(dòng),客戶(hù)都會(huì )在RFM單元格之間轉移。那些做出響應的客戶(hù)對增加其消費頻率和消費總額,并且會(huì )減少距上一次購買(mǎi)的時(shí)間。這些新的取值通常都會(huì )遷移到單元格中。沒(méi)有響應的客戶(hù)也可能因距上一次購買(mǎi)時(shí)間的增加而轉移到新的單元格。其實(shí)這就是定期的數據更新,模型更新。數據的遷移,會(huì )導致原來(lái)的期望的變化,在數據單元格遷移過(guò)程中,要不斷的了解客戶(hù)的需求,及時(shí)的更改數據增量響應建模的目標是識別那些容易被說(shuō)服的潛在客戶(hù)——受營(yíng)銷(xiāo)影響最大的人。RFM可以看成是對客戶(hù)營(yíng)銷(xiāo)活動(dòng)響應能力的預測。在定義好的RFM單元 格之后,需要為每個(gè)單元格分配成員,要么是接收營(yíng)銷(xiāo)信息的測試組成員,要么就是不接受該信息的對照組成員?;跍y試組和對照組兩個(gè)分組之間的響應率之差決 定了營(yíng)銷(xiāo)活動(dòng)對于發(fā)現潛在客戶(hù)的能力。對于測試組和對照組之間的響應率差異最大的單元格,營(yíng)銷(xiāo)獲得產(chǎn)生的影響也是最大的。但這些單元格的響應率卻未必是最大的表查詢(xún)模型簡(jiǎn)單有效,但是存在一個(gè)問(wèn)題。隨著(zhù)輸入數量的額增加,每個(gè)單元格中訓練樣本的數量會(huì )迅速減少。如果維度為2,且每一維有10個(gè)不同的變 量,那么就需要100個(gè)單元格,而當有3個(gè)維度時(shí),就需要1000個(gè)單元格,4個(gè)維度就是10000.這樣成指數級的增長(cháng),哪怕的傳統數據挖掘中都會(huì )遇到 明顯瓶頸當試圖預測某一個(gè)概率值時(shí),樸素貝葉斯模型就提供這一辦法?;舅枷耄好總€(gè)輸入變量本身就包含一些預測需要的信息。這些變量都具有預測能力。根據取消率的顯著(zhù)差異性,可將每個(gè)變量 劃分在不同的范圍中。

公司宣傳片拍攝-版權信息
公司宣傳片拍攝-
虛擬演播室拍攝 三維動(dòng)畫(huà)制作 MG動(dòng)畫(huà)制作 影視視頻制作 企業(yè)宣傳片制作 公司宣傳片拍攝 天源文化傳播有限公司公司地址:天津市西青區王頂堤商貿城58眾創(chuàng ) 本站視頻作品采用知識共享署名非商業(yè)性使用津ICP備14005706號-1

友情鏈接: 企業(yè)廣告片拍攝 活動(dòng)策劃 企業(yè)宣傳片制作 年會(huì )活動(dòng)策劃 廣告片拍攝制作 動(dòng)畫(huà)制作 多媒體企業(yè)展廳 影視視頻拍攝制作 廣告策劃公司 MV拍攝制作 企業(yè)宣傳片制作 天津活動(dòng)策劃 設計制作公司 虛擬演播室 短視頻運營(yíng) 動(dòng)畫(huà)制作公司 廣告片制作公司 活動(dòng)拍攝 VR拍攝