通過 AWS 機(jī)器學(xué)習(xí)專業(yè)認(rèn)證所需的技能/知識
關(guān)注留言點(diǎn)贊,帶你了解最流行的軟件開發(fā)知識與最新科技行業(yè)趨勢。
本文詳細(xì)介紹了成功通過 AWS ML 專業(yè)考試所需的技能或知識。

免責(zé)聲明:博客中表達(dá)的所有觀點(diǎn)和意見僅屬于作者,不一定屬于作者的雇主或任何其他團(tuán)體或個(gè)人。本文不為任何課程或培訓(xùn)平臺做宣傳。本文的唯一目的是幫助 AWS 社區(qū)順利通過這一高難度考試。此外,本文基于我的考試經(jīng)驗(yàn),可能與任何其他人的考試經(jīng)驗(yàn)不同。
我在2022年 11月通過了AWS Certified Machine Learning — Specialty考試。我想通過這篇文章分享我的經(jīng)驗(yàn)以及我為通過此認(rèn)證考試所做的準(zhǔn)備工作。我不想分享您可以從AWS認(rèn)證頁面獲得的詳細(xì)信息。相反,我會分享您通過考試需要了解的主題以及您在考試期間可能遇到的問題類型。
我為這次考試參加的課程和模擬考試
我參加了關(guān)于機(jī)器學(xué)習(xí)的 AWS 虛擬課堂培訓(xùn),這與AWS Skill Builder(免費(fèi)內(nèi)容)提供的自定進(jìn)度的在線免費(fèi)數(shù)字培訓(xùn)非常相似。這兩門課程作為起點(diǎn)都很好,但在我看來,它們都不足以通過考試。我參加了AWS Certified Machine Learning Specialty 2022— 實(shí)踐!由 Stephane Maarek 和 Frank Kane 在 Udemy 上發(fā)布。我經(jīng)歷了大部分與數(shù)據(jù)科學(xué)密切相關(guān)的探索性數(shù)據(jù)分析和建模主題,因?yàn)?AWS 特定主題對我來說是眾所周知的。我參加了幾次模擬考試。這些解釋消除了很多疑慮,尤其是在數(shù)據(jù)科學(xué)領(lǐng)域。請不要指望在考試中看到相同的問題,但這些練習(xí)考試會消除很多疑惑。以下是我參加的模擬考試列表。您可能不需要全部參加,但我強(qiáng)烈建議您在考試前至少參加一門考試并評估您的知識。 AWS 認(rèn)證機(jī)器學(xué)習(xí)專業(yè): Abhishek Singh 的3項(xiàng)實(shí)踐考試Jon Bonso 的AWS 認(rèn)證機(jī)器學(xué)習(xí)專業(yè)模擬考試Frank Kane 的AWS 認(rèn)證機(jī)器學(xué)習(xí)專業(yè)完整模擬考試我已經(jīng)準(zhǔn)備了一份我經(jīng)常參考的課程和模擬考試的個(gè)人筆記。我強(qiáng)烈建議創(chuàng)建一個(gè)簡單的筆記,你可以用它來記錄你不太了解的細(xì)節(jié),以及你可以隨時(shí)參考的東西,尤其是在考試前。
通過考試所需的技能/知識
領(lǐng)域1:數(shù)據(jù)工程
S3您需要具備基本的S3知識,因?yàn)?S3是 AWS 中 AI/ML 工作負(fù)載的主要數(shù)據(jù)源。了解 S3存儲類以及生命周期規(guī)則如何在不同的 S3存儲類之間移動(dòng)對象以節(jié)省成本和 S3安全性(存儲桶策略、不同的加密機(jī)制和 S3 VPC 端點(diǎn))。期待有關(guān) S3存儲類和生命周期規(guī)則的問題。其他存儲服務(wù)了解您可以使用 EFS、EBS 和 FSx for Lustre(最快但成本最高)作為模型訓(xùn)練的存儲解決方案。了解在哪種情況下使用哪個(gè)選項(xiàng)。期待諸如“客戶需要最快的解決方案來完成培訓(xùn)工作”之類的問題。Kinesis Family了解Kinesis Stream與Kinesis Firehose之間的區(qū)別。尋找諸如實(shí)時(shí)與近實(shí)時(shí)、數(shù)據(jù)轉(zhuǎn)換、無服務(wù)器、自動(dòng)擴(kuò)展和數(shù)據(jù)保留等關(guān)鍵字。了解兩種選擇的不同生產(chǎn)者和消費(fèi)者。對 Kinesis Video Stream 服務(wù)及其用例的高度理解。它如何與 AWS DeepLens、SageMaker 和 Recognition Video 集成。Kinesis Data Analytics 及其用法。知道您可以RANDOMCUTFOREST對流數(shù)據(jù)進(jìn)行異常檢測。
Glue, EMR & Athena了解何時(shí)使用 Glue 與 EMR。如果您在問題中看到“較少管理”或“無服務(wù)器”等關(guān)鍵字,請考慮使用 Glue。但是,如果您正在處理一個(gè)非常大的數(shù)據(jù)集,或者如果您想使用 Apache Spark 以外的其他大數(shù)據(jù)框架,或者如果您需要對計(jì)算層進(jìn)行低級控制,請考慮使用 EMR。另外,了解 Glue Catalog 和 Crawler 的用法。知道 Glue 有一個(gè)“FindMatches ML”轉(zhuǎn)換,可以識別數(shù)據(jù)集中的重復(fù)或匹配記錄。了解 Athena 的工作原理及其解決的問題。如果您看到“臨時(shí)分析”、“無服務(wù)器”、“對 S3中非結(jié)構(gòu)化數(shù)據(jù)的 SQL 查詢”等關(guān)鍵字,請考慮使用 Athena。深入了解 Step Function、AWS Batch、Data Pipeline 和 Data Sync 服務(wù)。您可能會在問題或答案中看到這些服務(wù)名稱彈出。
領(lǐng)域2:探索性數(shù)據(jù)分析
清理和準(zhǔn)備建模數(shù)據(jù)期待有關(guān)估算缺失數(shù)據(jù)的問題。對不同的數(shù)據(jù)插補(bǔ)技術(shù)有很好的理解(例如,Dropping vs. Mean replacement vs. ML vs. SMOTE)。了解刪除停用詞、標(biāo)記化和“小寫化”、HTML 標(biāo)記刪除、詞干提取和詞形還原如何幫助在訓(xùn)練前預(yù)處理數(shù)據(jù)。對過采樣與欠采樣有很好的理解。預(yù)計(jì)會有很多問題需要確定數(shù)據(jù)集是否不平衡。當(dāng)你有一個(gè)不平衡的數(shù)據(jù)集時(shí),你可以應(yīng)用什么技術(shù)?了解為什么需要縮放、規(guī)范化、改組和標(biāo)準(zhǔn)化。當(dāng)您想要將特征縮放到可比較的值時(shí),請考慮歸一化。否則,幅度較大的特征將具有比它們應(yīng)有的更大的權(quán)重(年齡與薪水)。而標(biāo)準(zhǔn)化是一種縮放技術(shù),可以減少特征中異常值的影響了解為什么標(biāo)記數(shù)據(jù)集很重要,以及 SageMaker Ground Truth 和 Mechanical Turk 如何幫助實(shí)現(xiàn)這一目標(biāo)。了解不同的數(shù)據(jù)分布函數(shù)(正態(tài)分布、泊松分布、二項(xiàng)分布、伯努利分布)。了解概率質(zhì)量函數(shù)和概率密度函數(shù)之間的區(qū)別。進(jìn)行特征工程期待有關(guān)裝箱、離群值、1熱編碼和降低數(shù)據(jù)維度的問題。一定要了解 binning 與 Quantile binning,如何檢測和最小化異常值的影響,何時(shí)使用1 熱編碼,以及為什么/何時(shí)/如何降低數(shù)據(jù)集的維度。知道對數(shù)變換和穩(wěn)健標(biāo)準(zhǔn)化可以解決數(shù)據(jù)中的異常值,以及其他技術(shù)。分析和可視化機(jī)器學(xué)習(xí)數(shù)據(jù)不同的繪圖技術(shù)(散點(diǎn)圖、直方圖、箱線圖、彎頭圖)以及何時(shí)使用什么。知道散點(diǎn)圖可以說明兩個(gè)特征如何相關(guān)。而直方圖提供了各個(gè)特征的分布。了解 Amazon Quicksight 提供數(shù)據(jù)可視化,有哪些不同的可視化類型和數(shù)據(jù)源。知道開箱即用的 Quicksight 提供異常檢測、預(yù)測和自動(dòng)敘述。
領(lǐng)域3:建模
將業(yè)務(wù)問題定義為機(jī)器學(xué)習(xí)問題您可能會看到一個(gè)問題,您需要確定 ML 是否是比傳統(tǒng)編程更好的解決業(yè)務(wù)問題的解決方案。當(dāng)您處理規(guī)?;驘o法編碼規(guī)則(例如,電子郵件垃圾郵件或欺詐性信用卡交易場景)時(shí),ML 可能是更好的選擇對監(jiān)督、無監(jiān)督和強(qiáng)化 ML 算法有很好的理解。此外,給定一個(gè)問題,您應(yīng)該能夠確定這是分類(二進(jìn)制與多類)還是回歸類型的問題。還會有與預(yù)測、集群和推薦引擎相關(guān)的問題。為給定的機(jī)器學(xué)習(xí)問題選擇合適的模型您需要了解所有開箱即用的 SageMaker 算法,并且應(yīng)該知道在哪種情況下使用哪種算法。一些非常重要的是線性學(xué)習(xí)器、XGBoost、KNN、K-means、DeepAR、Seq2Seq、Object2Vec、Word2vec、BlazingText、對象檢測、圖像分類、語義分割、因子分解機(jī)、隨機(jī)森林、LDA 和 PCA。你會被要求在多個(gè)問題中根據(jù)業(yè)務(wù)問題選擇ML算法。了解邏輯回歸和線性回歸之間的區(qū)別。此外,要知道除了上述使用 Apache Spark 的內(nèi)置 SageMaker 算法、使用 TensorFlow 或 Apache MXNet 的自定義代碼、您自己的自定義算法和 Docker 映像中的代碼或來自 AWS Marketplace 的算法之外,還有其他選項(xiàng)可以創(chuàng)建您自己的算法。了解何時(shí)使用哪個(gè)選項(xiàng)??紤] ML 解決方案的時(shí)間和精力、成本和管理。訓(xùn)練機(jī)器學(xué)習(xí)模型了解如何將數(shù)據(jù)集拆分為訓(xùn)練集、驗(yàn)證集和測試集(通常為80-10-10)。此外,了解不同的交叉驗(yàn)證技術(shù),例如 k 折交叉驗(yàn)證。了解什么是優(yōu)化器、梯度下降、損失函數(shù)、局部最小值、收斂、批處理和概率。預(yù)計(jì)考試中會出現(xiàn)有關(guān)梯度下降、損失函數(shù)、局部最小值和模型收斂的問題。了解 SageMaker 上可用的不同計(jì)算選項(xiàng)。通常在深度學(xué)習(xí)算法訓(xùn)練期間首選 GPU,但非 GPU 實(shí)例適合推理,因?yàn)榉?GPU 實(shí)例具有成本效益,而且推理通常要求不高。此外,要知道使用 Elastic Inference 可以加快吞吐量并減少從深度學(xué)習(xí)模型中獲取實(shí)時(shí)推理的延遲,而成本僅為使用 GPU 實(shí)例進(jìn)行推理的一小部分。了解批量大小和學(xué)習(xí)率如何影響模型訓(xùn)練。大批量導(dǎo)致更快的訓(xùn)練,但大批量有陷入局部最小值的風(fēng)險(xiǎn)。類似地,如果學(xué)習(xí)率太高,它會超過正確的解決方案,損失函數(shù)會振蕩。執(zhí)行超參數(shù)優(yōu)化dropout、Early Stopping 和 L1/L2等正則化技術(shù)非常重要。這些用于防止過度擬合。了解 L1和 L2之間的區(qū)別。了解 RNN 與 CNN。了解 CNN 是圖像和視頻分析應(yīng)用程序、對象檢測、計(jì)算機(jī)視覺應(yīng)用程序或一般多維數(shù)據(jù)的理想選擇。而 RNN 用于預(yù)測值取決于先前看到的值、時(shí)間序列預(yù)測、語音識別和建模序列數(shù)據(jù)的應(yīng)用。了解什么是長短期記憶(LSTM)。了解不同類型的激活函數(shù)及其用例。您需要知道 sigmoid 激活函數(shù)與 softmax 函數(shù)與 Tanh 和 RELU 之間的區(qū)別。期待關(guān)于激活函數(shù)的問題。評估機(jī)器學(xué)習(xí)模型您需要知道如何檢測和處理偏差并防止模型過度擬合或欠擬合。對此會有很多疑問。通常,當(dāng)模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)不佳時(shí),您的模型就會欠擬合。向模型添加更多功能或刪除正則化會有所幫助。您可以增加模型的復(fù)雜性,訓(xùn)練模型更長時(shí)間(更多時(shí)期),并使用不同的網(wǎng)絡(luò)架構(gòu)。但是添加更多訓(xùn)練數(shù)據(jù)可能有幫助也可能沒有幫助當(dāng)您發(fā)現(xiàn)模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)良好但在評估數(shù)據(jù)上表現(xiàn)不佳時(shí),您的模型就會過度擬合。這是因?yàn)樵撃P驼谟涀∷吹降臄?shù)據(jù),并且無法概括為看不見的示例。正則化技術(shù)可以防止模型過度擬合。你需要知道二元和多類混淆矩陣。期待有關(guān)評估指標(biāo)(AUC-ROC、準(zhǔn)確度、精確度、召回率、RMSE、F1分?jǐn)?shù))的問題。請務(wù)必了解用例并記住準(zhǔn)確性、精確度、召回率和 F1分?jǐn)?shù)的計(jì)算。了解如何使用 SageMaker 評估模型和執(zhí)行測試(使用變體權(quán)重進(jìn)行 A/B 測試,藍(lán)-綠)。了解如何使用不同的指標(biāo)進(jìn)行評估。
領(lǐng)域4:機(jī)器學(xué)習(xí)實(shí)施和操作
為性能、可用性、可擴(kuò)展性、彈性和容錯(cuò)構(gòu)建機(jī)器學(xué)習(xí)解決方案了解如何使用 CloudWatch 日志、指標(biāo)和事件來監(jiān)控您的 ML 工作負(fù)載。您可以使用 CloudWatch 設(shè)置擴(kuò)展策略來定義目標(biāo)指標(biāo)、最小/最大容量和冷卻時(shí)間。AWS CloudTrail 提供用戶、角色或 AWS 服務(wù)在 Amazon SageMaker 中采取的操作的記錄,但它不監(jiān)控對 InvokeEndpoint 的調(diào)用。了解如何使用 SageMaker 進(jìn)行多可用區(qū)或多區(qū)域部署。知道 SageMaker 會自動(dòng)嘗試跨可用性區(qū)域分發(fā)實(shí)例(如果指定了多個(gè)實(shí)例)。了解如何使用自定義 AMI。Sagemaker 虛擬機(jī)如何在負(fù)載均衡器后面的自動(dòng)縮放組中運(yùn)行。了解 SageMaker 實(shí)例合理化(Spot 與按需)的基礎(chǔ)知識,以及如何根據(jù)您的工作負(fù)載選擇最佳卷和 IOPS。了解管道輸入模式如何幫助您的訓(xùn)練作業(yè)更快地開始、更快地完成,并在使用 S3中的大文件訓(xùn)練您的模型時(shí)使用更少的磁盤空間。針對給定問題推薦并實(shí)施適當(dāng)?shù)臋C(jī)器學(xué)習(xí)服務(wù)和功能對以下 AWS AI 服務(wù)有深入的了解。您應(yīng)該對考試指南中提到的所有 AI 服務(wù)都有一些了解,但根據(jù)我的考試經(jīng)驗(yàn),我強(qiáng)烈推薦以下服務(wù)。Amazon Comprehend:執(zhí)行 NLP 并提取關(guān)鍵短語、實(shí)體和情緒。您可以使用自己的數(shù)據(jù)進(jìn)行訓(xùn)練。Amazon Translate:支持自定義術(shù)語的語言翻譯服務(wù)。Amazon Transcribe:提供說話人識別、自動(dòng)語言識別和自定義詞匯的語音到文本服務(wù)。Amazon Polly:提供 Lexicons(單詞和短語的自定義發(fā)音)并支持 SSML(語音合成標(biāo)記語言)的文本轉(zhuǎn)語音服務(wù)。Amazon Lex:圍繞意圖構(gòu)建的自然語言聊天機(jī)器人引擎。Amazon Rekognition:可用于圖像和視頻分析??梢宰R別圖像中的面孔和文字。您可以使用自己的標(biāo)記數(shù)據(jù)來識別獨(dú)特的項(xiàng)目。Amazon Personalize:推薦服務(wù)。了解 GetRecommendations 和 GetPersonalizedRanking API 之間的區(qū)別。AWS DeepLens:支持深度學(xué)習(xí)的攝像機(jī),與 Kinesis Video Streams、Rekognition、SageMaker、Polly、Tensorflow、MXNet 和 Caffe 集成。了解將 AWS DeepLens 用作監(jiān)控?cái)z像頭是不切實(shí)際的。尋找諸如“較少管理”、“業(yè)務(wù)需要快速解決方案”、“無服務(wù)器”等關(guān)鍵字。根據(jù)是應(yīng)該在 SageMaker 中訓(xùn)練和部署模型還是應(yīng)該選擇易于使用的模型來做出判斷-使用人工智能服務(wù)。這同樣適用于您自己的模型與 SageMaker 的內(nèi)置算法。了解如何使用 Spot 實(shí)例和成本較低的實(shí)例類型最大限度地降低基礎(chǔ)設(shè)施成本。了解 GPU 實(shí)例非常昂貴。您也可以使用 Spot 實(shí)例進(jìn)行模型訓(xùn)練并使用檢查點(diǎn)到 S3,但它會增加訓(xùn)練時(shí)間。此外,對 AWS Batch 服務(wù)有一個(gè)高層次的了解,了解它如何安排計(jì)算實(shí)例來執(zhí)行批處理作業(yè)。將基本的 AWS 安全實(shí)踐應(yīng)用于機(jī)器學(xué)習(xí)解決方案對 SageMaker 安全性有很好的了解。它如何與 IAM、CloudWatch、CloudTrail 和 VPC 集成。了解如何對靜態(tài)數(shù)據(jù)和傳輸中的數(shù)據(jù)進(jìn)行加密。了解如何使用 S3存儲桶策略來限制訪問。了解 S3的不同加密選項(xiàng)(SSE-S3 vs. SSE-KMS vs. SSE-C vs. CSE)。了解當(dāng)您沒有來自 SageMaker 實(shí)例的出口互聯(lián)網(wǎng)訪問權(quán)限時(shí),如何使用 S3和其他 VPC 終端節(jié)點(diǎn)訪問 S3和其他服務(wù)中的文件。部署和實(shí)施機(jī)器學(xué)習(xí)解決方案您需要知道如何部署模型并與之交互。訓(xùn)練模型并準(zhǔn)備好進(jìn)行生產(chǎn)部署后,您需要?jiǎng)?chuàng)建端點(diǎn)配置,然后創(chuàng)建端點(diǎn)來部署模型。該服務(wù)會自動(dòng)啟動(dòng)一定數(shù)量的 ML 計(jì)算實(shí)例并將它們放置在不同的可用區(qū)中(如果您指定兩個(gè)或多個(gè)實(shí)例)。知道 SageMaker 還支持產(chǎn)品變體的自動(dòng)縮放。自動(dòng)縮放與 CloudWatch 配合使用,它可以根據(jù)負(fù)載動(dòng)態(tài)調(diào)整計(jì)算實(shí)例的數(shù)量。了解什么是推理管道。要知道這是一個(gè)由2-15個(gè)容器組成的線性序列,您可以在其中組合預(yù)處理、預(yù)測和后處理。它可用于實(shí)時(shí)和批量預(yù)測。在推理管道模型中,Amazon SageMaker 將調(diào)用處理為一系列 HTTP 請求。了解如何監(jiān)控模型的性能以及可用于調(diào)試生產(chǎn)中模型問題的不同選項(xiàng)。
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。