機器學(xué)習(xí)的挑戰(zhàn):開始之前要了解的知識
時間: 2019-11-28來源: Sherry Tiao
機器學(xué)習(xí)的回報是眾所周知的,它可能會讓您想現(xiàn)在就開始。然而,與此同時,在開始自己的項目之前,您應(yīng)該考慮一下機器學(xué)習(xí)的挑戰(zhàn)。
這篇文章并不是要嚇跑您,相反,這樣做是為了確保您做好了準(zhǔn)備,并在開始之前仔細考慮所需注意的事項。
本文據(jù)與Oracle信息管理平臺團隊的數(shù)據(jù)科學(xué)家Brian MacDonald訪談,他談到了他所看到的陷阱,以及公司可以采取哪些措施來避免這些陷阱。
這些機器學(xué)習(xí)的挑戰(zhàn)包括:
• 解決技能差距
• 知道如何管理您的數(shù)據(jù)
• 數(shù)據(jù)運作
1. 解決機器學(xué)習(xí)技能的差距
當(dāng)然,較大的困難是在大數(shù)據(jù)環(huán)境中使用機器學(xué)習(xí)的技能差距。有一群人認為大數(shù)據(jù)讓生活更美好,而且很容易上手。
您將發(fā)現(xiàn)較大的挑戰(zhàn)是找到合適的人。機器學(xué)習(xí)的人才需求量很大,可供選擇的人才很少。但獲得高管的支持是實現(xiàn)這一目標(biāo)的關(guān)鍵。如果您有高層管理人員的支持,那么您還將獲得尋找和招募這些寶貴人才的資金。
這是要考慮的事情:如果您處于一種由于經(jīng)驗豐富的數(shù)據(jù)科學(xué)家很昂貴而對成本非常敏感的情況,那么你可能沒有足夠大的商業(yè)問題來讓機器學(xué)習(xí)變得值得去做。
假設(shè)一位經(jīng)驗豐富的數(shù)據(jù)科學(xué)家要花費您公司3-40萬美元(包括所有的福利和獎勵)。如果該人不能幫助您解決每年至少價值一百萬美元的問題,那么您可能不需要他。對嗎?
另一方面,如果您真的相信這個人(或團隊)可以幫助您解決數(shù)千萬的問題,那么您還在等什么呢?
很難找到人。但如果這對您的公司真的很重要,您可以找到他們。
這里還有一個需要考慮的問題:工具和軟件。當(dāng)然,有一些工具會有所幫助,但您很難立即找到您需要的:準(zhǔn)確的、完美的、開箱即用的機器學(xué)習(xí)工具。您必須考慮將要使用的工具。
Python, R, SQL, TensorFlow…如果您使用它們,它們將如何與您的數(shù)據(jù)湖一起工作?您將如何處理可能帶來挑戰(zhàn)的設(shè)置和配置?開始之前請仔細考慮所有細節(jié),并確保您有足夠的資金。
2.知道如何管理大數(shù)據(jù)
機器學(xué)習(xí)是一個混亂的過程。僅僅擁有一個大數(shù)據(jù)平臺并不意味著它會變得更容易。事實上,這可能會使它變得更混亂,因為您將擁有更多的數(shù)據(jù)。這些數(shù)據(jù)使您能夠做更多的工作,但這也意味著必須完成更多的數(shù)據(jù)準(zhǔn)備工作。
你必須全盤考慮如何處理這個問題。以下是一些需要思考的問題:
• 您的數(shù)據(jù)來自哪里?
• 您打算怎樣處理這個問題?
• 您希望如何處理數(shù)據(jù)準(zhǔn)備工作?
• 完成后,您將如何構(gòu)建模型并實現(xiàn)所有操作?
如果您還沒有一個好的BI實踐或分析實踐,如果您還沒有以您能想到的所有方式使用數(shù)據(jù),那么跳到機器學(xué)習(xí)將是一個真正的挑戰(zhàn)。已經(jīng)有數(shù)據(jù)驅(qū)動的決策絕對至關(guān)重要。如果您還沒有,我們建議您在開始機器學(xué)習(xí)之前就做好了準(zhǔn)備。
如果您決定開始,那么這里還有其他一些注意事項。在開始之前,請仔細考慮它們:
快速變化:在機器學(xué)習(xí)的世界里,創(chuàng)新來的很快,這意味著快速的變化。今天的好東西明天可能就不那么好了,而且你不能總是依賴軟件,因為它是一個更不穩(wěn)定的空間。不同的版本和沖突可能會帶來更多的問題。
龐大的數(shù)據(jù)量:借助機器學(xué)習(xí),您將不得不處理大量數(shù)據(jù)以及許多不同類型的數(shù)據(jù)。了解您是否使用所有這些信息,過程,是否采樣等都是挑戰(zhàn),尤其是當(dāng)您深入了解數(shù)據(jù)并處理數(shù)據(jù)移動時。
確保您已準(zhǔn)備好應(yīng)對挑戰(zhàn),并制定了計劃。
3.大數(shù)據(jù)的運作
大多數(shù)數(shù)據(jù)科學(xué)家面臨的較大問題是什么?是數(shù)據(jù)的運作。
假設(shè)您已經(jīng)建立了一個模型,它可以預(yù)測導(dǎo)致客戶流失的因素。您如何把這個模型推廣給那些能影響這些數(shù)字的人?您如何將其導(dǎo)入CRM系統(tǒng)或移動應(yīng)用?
如果您擁有可以預(yù)測設(shè)備故障的模型,那么如何及時將其告知操作員以防止發(fā)生故障?建立模型并使之可行具有許多挑戰(zhàn)。對于當(dāng)今的數(shù)據(jù)科學(xué)家來說,這可能是較大的技術(shù)挑戰(zhàn)。
您可以建立世界上非常漂亮的模型。但是,您的管理層真的會真正在意這是否會對公司的利潤產(chǎn)生影響嗎?您可能認為您的部分交易只是提供數(shù)據(jù)。但事實并非如此。您必須確保實際使用您的數(shù)據(jù),獲得主管的支持對此很有幫助。
因此,機器學(xué)習(xí)并不是很容易。但這可以成就大事。為了激發(fā)您的靈感并提醒您可行的方法,我們分享了一個真實的客戶示例及其機器學(xué)習(xí)項目。
現(xiàn)實生活中的機器學(xué)習(xí)和大數(shù)據(jù)示例
該公司是美國較大的無線語音和數(shù)據(jù)通信服務(wù)提供商。
業(yè)務(wù)挑戰(zhàn):
• 信用風(fēng)險:他們通過融資部門進行的設(shè)備租賃和貸款項目每年都要沖銷大量壞賬。他們希望減少壞賬和違約,這將大大增加他們每年數(shù)以百萬計的利潤。此外,影響未決收款的能力將更大地幫助現(xiàn)金流。
• 客戶體驗和個性化:客戶流失使公司每年損失數(shù)百萬美元。通過個性化和細分,盡早識別和定位潛在的客戶流失和新的高價值客戶,可以顯著增加新用戶的數(shù)量,并減少客戶流失率。
• 運營效率:該公司通過網(wǎng)絡(luò)優(yōu)化和數(shù)據(jù)貨幣化來尋求有針對性的營銷和營銷活動有效性。
技術(shù)挑戰(zhàn):
• 該電信公司希望更早地檢測欺詐活動,并集成來自多個結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源的數(shù)據(jù),以改進客戶評分。這將使公司能夠提供定制的報價,并降低風(fēng)險。
• 他們還希望能夠存儲和分析大量的客戶數(shù)據(jù),以幫助企業(yè)發(fā)展更好的能力來細分客戶并預(yù)測其個性化報價的行為。
• 他們試圖通過新的假設(shè)分析來優(yōu)化定價。
為了實現(xiàn)這一目標(biāo),公司購買了包括多種大數(shù)據(jù)產(chǎn)品。
解決技能差距,管理數(shù)據(jù)并對其進行運作是嘗試機器學(xué)習(xí)技術(shù)需要解決的挑戰(zhàn),但可以解決,且結(jié)果令人驚喜的。