熟女chachacha性少妇,在线新版天堂资源中文www,色妞www精品免费视频,中文字幕理伦午夜福利片,孕妇怀孕高潮潮喷视频孕妇

crm系統(tǒng)

免費(fèi)試用400-821-5041


機(jī)器學(xué)習(xí)的七個(gè)最佳實(shí)踐

時(shí)間: 2020-03-15來(lái)源: Salesforce知識(shí)

機(jī)器學(xué)習(xí)

Netflix著名的算法挑戰(zhàn)賽,向預(yù)測(cè)用戶對(duì)電影評(píng)分的較佳算法頒發(fā)了100萬(wàn)美元的獎(jiǎng)金。但是您知道獲勝算法從未實(shí)現(xiàn)到功能模型中嗎?

 

Netflix報(bào)道說(shuō),該算法取得的成果似乎并不能證明將其引入生產(chǎn)環(huán)境所需的工程工作是合理的。這是機(jī)器學(xué)習(xí)的一大問(wèn)題。

 

在您的公司,您可以創(chuàng)建任何人都見(jiàn)過(guò)的非常優(yōu)雅的機(jī)器學(xué)習(xí)模型,即使您從不部署和操作它也沒(méi)有關(guān)系。但這并非易事,這就是為什么我們向您展示機(jī)器學(xué)習(xí)的七個(gè)最佳實(shí)踐的原因。

 

本文內(nèi)容整理于對(duì)近期參與數(shù)據(jù)和分析峰會(huì)的數(shù)據(jù)挖掘和分析產(chǎn)品管理總監(jiān)Charlie Berger的采訪。

 

將模型付諸實(shí)踐的時(shí)間可能比您想象的要長(zhǎng)。TDWI的一份報(bào)告發(fā)現(xiàn),28%的受訪者花了三到五個(gè)月的時(shí)間才將他們的模型投入使用。幾乎有15%的人需要超過(guò)9個(gè)月的時(shí)間。

機(jī)器學(xué)習(xí)

那么,您如何做才能開(kāi)始更快地部署機(jī)器學(xué)習(xí)呢?在這里列出了我們的建議:

 

1.別忘了開(kāi)始行動(dòng)

在以下幾點(diǎn)中,我們將為您提供一系列不同的方法,以確保以更佳方式使用您的機(jī)器學(xué)習(xí)模型。但是我們從更重要的一點(diǎn)開(kāi)始。

 

事實(shí)是,在機(jī)器學(xué)習(xí)的這個(gè)階段,許多人根本就沒(méi)有開(kāi)始。發(fā)生這種情況的原因有很多。技術(shù)很復(fù)雜,也許買不到,或者人們只是難以把每件事都做好。所以這是Charlie的建議:“即使您知道不得不每月重建一次模型,也要開(kāi)始使用。因?yàn)槟銖闹袑W(xué)到的東西是無(wú)價(jià)的。”

 

2.從業(yè)務(wù)問(wèn)題陳述開(kāi)始,建立正確的成功指標(biāo)

從業(yè)務(wù)問(wèn)題入手是常見(jiàn)的機(jī)器學(xué)習(xí)更佳實(shí)踐。但它之所以常見(jiàn),恰恰是因?yàn)樗侨绱酥匾S多人卻不把它放在首位。

 

想一想這句話:“如果我有一個(gè)小時(shí)來(lái)解決一個(gè)問(wèn)題,我會(huì)花55分鐘思考這個(gè)問(wèn)題,5分鐘思考解決方案。”

 

現(xiàn)在,請(qǐng)確保將其應(yīng)用到機(jī)器學(xué)習(xí)場(chǎng)景中。下面,我們列出了定義不明確的問(wèn)題陳述以及以更具體的方式定義問(wèn)題的方式示例。

機(jī)器學(xué)習(xí)

想想你對(duì)盈利能力的定義是什么。例如,我們近期與一家全國(guó)性的快餐連鎖店進(jìn)行了洽談,他們希望增加軟飲料的銷量。在這種情況下,我們必須仔細(xì)考慮定義交易的含義。該交易是單人餐,還是一家人的六人餐?這很重要,因?yàn)樗鼤?huì)影響您顯示結(jié)果的方式。您必須考慮如何解決該問(wèn)題并將其付諸實(shí)施。

 

除了建立成功指標(biāo)之外,您還需要建立正確的指標(biāo)。指標(biāo)將幫助您建立進(jìn)度,但是改進(jìn)指標(biāo)真的能改善終端用戶體驗(yàn)嗎?例如,您的傳統(tǒng)度量指標(biāo)可能包含精度和平方誤差。但是,如果您試圖創(chuàng)建一個(gè)衡量航空公司價(jià)格優(yōu)化的模型,那么您的每次購(gòu)買成本和總體購(gòu)買成本沒(méi)有增加就沒(méi)關(guān)系。

 

3.不要移動(dòng)數(shù)據(jù)–移動(dòng)算法
預(yù)測(cè)建模的致命弱點(diǎn)是這是一個(gè)兩步過(guò)程。首先,您通?;跇颖緮?shù)據(jù)構(gòu)建模型,這些數(shù)據(jù)的數(shù)量從數(shù)百到數(shù)百萬(wàn)不等。然后,一旦建立了預(yù)測(cè)模型,數(shù)據(jù)科學(xué)家就必須應(yīng)用它。然而,這些數(shù)據(jù)中的大部分都駐留在某個(gè)數(shù)據(jù)庫(kù)中。

 

假設(shè)您要獲得美國(guó)所有人的數(shù)據(jù)。美國(guó)有3億6千萬(wàn)人口,這些數(shù)據(jù)存放在哪里?可能在某個(gè)地方的數(shù)據(jù)庫(kù)中。

 

您的預(yù)測(cè)模型位于何處?

通常的情況是人們會(huì)把他們所有的數(shù)據(jù)從數(shù)據(jù)庫(kù)中取出來(lái),這樣他們就可以用他們的模型來(lái)運(yùn)行方程。然后,他們必須將結(jié)果重新導(dǎo)入數(shù)據(jù)庫(kù)以進(jìn)行預(yù)測(cè)。這個(gè)過(guò)程需要花費(fèi)數(shù)小時(shí),甚至數(shù)天的時(shí)間,從而降低了您所構(gòu)建的模型的效率。

 

但是,從數(shù)據(jù)庫(kù)中擴(kuò)展方程具有顯著的優(yōu)勢(shì)。通過(guò)數(shù)據(jù)庫(kù)內(nèi)核運(yùn)行方程式需要花費(fèi)幾秒鐘,而導(dǎo)出數(shù)據(jù)需要花費(fèi)數(shù)小時(shí)。然后,數(shù)據(jù)庫(kù)也可以完成所有數(shù)學(xué)運(yùn)算并在數(shù)據(jù)庫(kù)中構(gòu)建它。對(duì)于數(shù)據(jù)科學(xué)家和數(shù)據(jù)庫(kù)管理員來(lái)說(shuō),這意味著一個(gè)世界。

 

通過(guò)將數(shù)據(jù)保留在數(shù)據(jù)庫(kù)和Hadoop或?qū)ο蟠鎯?chǔ)中,您可以在數(shù)據(jù)庫(kù)中構(gòu)建模型和評(píng)分,并使用具有數(shù)據(jù)并行調(diào)用的R包。這樣,您就可以消除數(shù)據(jù)重復(fù)并分離分析服務(wù)器(不移動(dòng)數(shù)據(jù)),并且可以在數(shù)小時(shí)內(nèi)對(duì)模型進(jìn)行評(píng)分,嵌入數(shù)據(jù)準(zhǔn)備,構(gòu)建模型和準(zhǔn)備數(shù)據(jù)。

 

4.整合正確的數(shù)據(jù)
正如James Taylor和Neil Raden在Smart Enough System一書中所寫,對(duì)您擁有的所有東西進(jìn)行分類并確定哪些數(shù)據(jù)是重要的是處理問(wèn)題的錯(cuò)誤方法。正確的方法是從解決方案開(kāi)始,明確定義問(wèn)題,并繪制出構(gòu)成調(diào)查和模型所需的數(shù)據(jù)。

 

然后,是時(shí)候與其他團(tuán)隊(duì)合作了。

 

機(jī)器學(xué)習(xí)

這是您可能開(kāi)始陷入困境的地方。因此,我們將參考第1點(diǎn),即“別忘了真正開(kāi)始行動(dòng)。”同時(shí),整合正確的數(shù)據(jù)對(duì)您的成功非常重要。

 

為使您找出用于填充調(diào)查和模型的正確數(shù)據(jù),您需要與業(yè)務(wù)領(lǐng)域,信息技術(shù)和數(shù)據(jù)分析師這三個(gè)主要領(lǐng)域的人員進(jìn)行交談。


業(yè)務(wù)領(lǐng)域-這些都是了解業(yè)務(wù)的人:
• 市場(chǎng)營(yíng)銷和銷售
• 客戶服務(wù)
• 運(yùn)營(yíng)


信息技術(shù)-有權(quán)訪問(wèn)數(shù)據(jù)的人:
• 數(shù)據(jù)庫(kù)管理員


數(shù)據(jù)分析師-了解業(yè)務(wù)的人:
•  統(tǒng)計(jì)員
•  數(shù)據(jù)挖掘者
•  數(shù)據(jù)科學(xué)家


您需要積極參與。沒(méi)有它,您將收到類似的評(píng)論:
• 這些線索都不好
• 數(shù)據(jù)過(guò)時(shí)了
• 該模型不夠精確
• 您為什么不使用這些數(shù)據(jù)?

 

5.創(chuàng)建新的派生變量
您可能會(huì)想,我已經(jīng)掌握了所有這些數(shù)據(jù)。我還需要什么?

 

但是創(chuàng)建新的派生變量可以幫助您獲得更多有見(jiàn)地的信息。例如,您可能正在嘗試預(yù)測(cè)第二天報(bào)紙和雜志的銷量。以下是你已經(jīng)知道的信息:

• 實(shí)體店或售貨亭
• 賣彩票?
• 本次抽獎(jiǎng)金額

 

當(dāng)然,您可以根據(jù)該信息做出猜測(cè)。但是,如果您能夠首先比較當(dāng)前彩票獎(jiǎng)賞金額與典型獎(jiǎng)賞金額,然后將該派生變量與您已經(jīng)擁有的變量進(jìn)行比較,您將得到一個(gè)更準(zhǔn)確的答案。

 

6.在發(fā)布之前考慮問(wèn)題并進(jìn)行測(cè)試
理想情況下,一開(kāi)始您應(yīng)該能夠使用兩個(gè)或多個(gè)模型進(jìn)行A / B測(cè)試。你不僅知道你怎么做是對(duì)的,而且當(dāng)你知道你做的是對(duì)的時(shí)候,你會(huì)更有信心。

 

但是,除了進(jìn)行全面測(cè)試之外,當(dāng)事情出錯(cuò)時(shí),你也應(yīng)該有一個(gè)適當(dāng)?shù)挠?jì)劃。例如,您的指標(biāo)開(kāi)始下降。有幾件事會(huì)涉及到這一點(diǎn)。您將需要某種形式的警報(bào),以確保可以盡快調(diào)查此事。當(dāng)副總裁進(jìn)入您的辦公室想知道發(fā)生了什么時(shí),您將不得不向可能沒(méi)有工程背景的人解釋發(fā)生了什么。

 

當(dāng)然,在發(fā)布之前,您需要計(jì)劃一些問(wèn)題。遵守法規(guī)是其中之一。例如,假設(shè)你申請(qǐng)汽車貸款卻被拒絕了。根據(jù)GDPR的新規(guī)定,您有權(quán)知道原因。當(dāng)然,機(jī)器學(xué)習(xí)的問(wèn)題之一是它看起來(lái)像一個(gè)黑匣子,甚至工程師/數(shù)據(jù)科學(xué)家也無(wú)法說(shuō)出為什么做出某些決定。但是,某些公司將通過(guò)確保您的算法能提供預(yù)測(cè)細(xì)節(jié)來(lái)為您提供幫助。

 

7.在企業(yè)范圍內(nèi)部署和自動(dòng)化
部署后,不要局限于數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家。

 

我們的意思是,始終要思考如何在整個(gè)企業(yè)中發(fā)布預(yù)測(cè)和可行的見(jiàn)解。重要的是了解數(shù)據(jù)在哪里以及何時(shí)可用,才使數(shù)據(jù)有價(jià)值;而不是它存在的事實(shí)。您不想成為坐在象牙塔中的人,發(fā)布一些零星的見(jiàn)解。您想要無(wú)處不在,每個(gè)人都需要更多的見(jiàn)解-簡(jiǎn)而言之,你想要確保自己是不可或缺的,是極其有價(jià)值的。

 

鑒于我們所有人都只有這么多時(shí)間,因此如果可以自動(dòng)化的話,這是較簡(jiǎn)單的,創(chuàng)建儀表板。將這些見(jiàn)解納入企業(yè)應(yīng)用程序??纯茨欠窨梢猿蔀榭蛻艚佑|點(diǎn)的一部分,就像一臺(tái)自動(dòng)提款機(jī)能識(shí)別出客戶定期在每個(gè)周五晚上提取100美元,在每個(gè)發(fā)薪日之后提取500美元。

 

結(jié)論
這是機(jī)器學(xué)習(xí)更佳實(shí)踐的核心要素。你需要良好的數(shù)據(jù),否則將一事無(wú)成。您需要將其放在數(shù)據(jù)庫(kù)或?qū)ο蟠鎯?chǔ)之類的地方。您需要深入了解數(shù)據(jù)以及知道如何處理數(shù)據(jù),無(wú)論是創(chuàng)建新的派生變量還是使用它們的正確算法。然后,您需要實(shí)際使用它們從中獲得深入的見(jiàn)解,通過(guò)信息傳播它們。

 

其中較困難的部分是啟動(dòng)您的機(jī)器學(xué)習(xí)項(xiàng)目。我們希望通過(guò)這篇文章可以幫助您邁向成功。

 

編譯自:7 Machine Learning Best Practices 作者: Sherry Tiao (ORACLE)