在企業(yè)大數(shù)據(jù)實(shí)操過(guò)程中的人工智能技術(shù)
文章摘要:大數(shù)據(jù)、云計(jì)算和高級(jí)算法,這三大技術(shù)趨勢(shì)的獨(dú)特融合幫助人工智能走出了學(xué)術(shù)界,并使其在日常應(yīng)用中無(wú)處不在。如今,人工智能已經(jīng)從根本上改變了軟件的編寫方式,并將其融入日常數(shù)字體驗(yàn)中,比如寫電子郵件、搜...
大數(shù)據(jù)、云計(jì)算和高級(jí)算法,這三大技術(shù)趨勢(shì)的獨(dú)特融合幫助人工智能走出了學(xué)術(shù)界,并使其在日常應(yīng)用中無(wú)處不在。如今,人工智能已經(jīng)從根本上改變了軟件的編寫方式,并將其融入日常數(shù)字體驗(yàn)中,比如寫電子郵件、搜索網(wǎng)頁(yè)、買衣服、搜索和聽(tīng)音樂(lè)以及建立網(wǎng)站。然而,人工智能在制造、運(yùn)輸、航空、發(fā)電、金融服務(wù)和其他行業(yè)的全球基礎(chǔ)設(shè)施系統(tǒng)中的傳播速度稍慢。
雖然這些行業(yè)有大量數(shù)據(jù),但數(shù)據(jù)通常無(wú)法導(dǎo)出或不好處理,例如:數(shù)據(jù)不在公共領(lǐng)域;油氣勘探或環(huán)境影響報(bào)告需要知識(shí)淵博的人進(jìn)行注釋;來(lái)自燃?xì)廨啓C(jī)、泵、壓縮機(jī)的傳感器數(shù)據(jù)以多種格式保存在復(fù)雜的數(shù)據(jù)存儲(chǔ)中,并且不總是被清除;飛機(jī)維護(hù)日志或手冊(cè),這些困難的挑戰(zhàn)使得應(yīng)用那些革命性的互聯(lián)網(wǎng)搜索、閱讀發(fā)票、翻譯語(yǔ)言和進(jìn)行對(duì)話的人工智能技術(shù)不適用于專門領(lǐng)域。
工業(yè)中的人工智能從業(yè)者意識(shí)到,傳統(tǒng)的監(jiān)督機(jī)器學(xué)習(xí)方法和來(lái)自學(xué)術(shù)界與研究的大規(guī)模模型往往在專業(yè)領(lǐng)域失敗,這使得商業(yè)企業(yè)中的大數(shù)據(jù)操作變得非常困難。正如Gartner高級(jí)總監(jiān)分析師Chirag Dekate在2019年所說(shuō),“試飛看似簡(jiǎn)單,但部署到生產(chǎn)中卻是出了名的困難。”
與依賴數(shù)據(jù)科學(xué)家和軟件開(kāi)發(fā)的人員相比,行業(yè)采用的關(guān)鍵
是賦予深入了解流程和數(shù)據(jù)的權(quán)力。然而,使中小企業(yè)(如飛機(jī)技術(shù)人員、發(fā)電廠運(yùn)營(yíng)商、財(cái)務(wù)分析師、海關(guān)代理等)能夠直觀、快速地定義、構(gòu)建和部署自己的專用人工智能,需要新的數(shù)據(jù)發(fā)
現(xiàn)、工具、自動(dòng)化和數(shù)據(jù)科學(xué)驗(yàn)證方法。
在企業(yè)中操作最普遍的大數(shù)據(jù)形式的一些經(jīng)驗(yàn)證的技術(shù)包括:
基于數(shù)字傳感器數(shù)據(jù)的正常行為建模為非計(jì)劃資產(chǎn)停機(jī)創(chuàng)建早期預(yù)警
工業(yè)運(yùn)營(yíng)通常依賴于燃?xì)廨啓C(jī)等關(guān)鍵高價(jià)值資產(chǎn)。一天的計(jì)劃外停機(jī)或停電可能會(huì)使電力公司或公用事業(yè)提供商損失約30萬(wàn)美元的收入——對(duì)消費(fèi)者的影響可能會(huì)嚴(yán)重得多。由于其關(guān)鍵性,這些系統(tǒng)通常都是冗余的,并且有全面的預(yù)防性維護(hù)計(jì)劃。具有諷刺意味的是,這使得傳統(tǒng)的監(jiān)督機(jī)器學(xué)習(xí)變得困難,因?yàn)樵谙到y(tǒng)的生命周期中很少有故障。
正常行為建模是一種與領(lǐng)域無(wú)關(guān)的半監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以通過(guò)將任何系統(tǒng)表示為過(guò)程參數(shù)的組合來(lái)快速建模。SME在歷史數(shù)據(jù)中確定系統(tǒng)正常行為的時(shí)間框架,然后AI開(kāi)始學(xué)習(xí)過(guò)程參數(shù)之間的潛在關(guān)系。自動(dòng)編碼器是一種神經(jīng)網(wǎng)絡(luò),它對(duì)歷史數(shù)據(jù)進(jìn)行訓(xùn)練,并將潛在關(guān)系存儲(chǔ)為一組權(quán)重。一旦訓(xùn)練了自動(dòng)編碼器,它就可以用于預(yù)測(cè)或重新生成輸入過(guò)程參數(shù)。如果和當(dāng)過(guò)程參數(shù)的預(yù)測(cè)值或再生值與測(cè)量值、歷史值不匹配時(shí),標(biāo)準(zhǔn)化誤差被用作“異常”或異常的度量。
在這種類型的正常行為模型可以產(chǎn)品化之前,需要根據(jù)系統(tǒng)中實(shí)際停機(jī)和事件的歷史記錄對(duì)其進(jìn)行回測(cè)。如果選定的工藝參數(shù)很好地代表了系統(tǒng)的行為,那么在任何大修之前,一些或所有參數(shù)應(yīng)開(kāi)始趨向于異常范圍。正常行為模型應(yīng)該通過(guò)提高異常水平來(lái)預(yù)測(cè)這一點(diǎn)。如果異常水平在停機(jī)前持續(xù)提高足夠多,則可用于創(chuàng)建未來(lái)停機(jī)的預(yù)警系統(tǒng)。
在實(shí)踐中,可以使用超參數(shù)優(yōu)化自動(dòng)訓(xùn)練數(shù)十或數(shù)百個(gè)正常行為模型。創(chuàng)建一個(gè)目標(biāo)函數(shù)來(lái)測(cè)量預(yù)測(cè)的準(zhǔn)確性和預(yù)警的長(zhǎng)度。這個(gè)目標(biāo)函數(shù)使得可以通過(guò)編程方式對(duì)所有模型變量進(jìn)行評(píng)估和排序,并將最好的模型變量部署到生產(chǎn)中??梢蕴砑宇~外的調(diào)整層,以基于異常級(jí)別和用戶的偏好來(lái)選擇用于發(fā)出警報(bào)的正確動(dòng)態(tài)閾值。
與傳統(tǒng)建模相比,正常行為模型具有以下優(yōu)勢(shì):
領(lǐng)域不限。只要以合理的頻率和精度測(cè)量/記錄過(guò)程變量,就可以使用該方法。
無(wú)監(jiān)督學(xué)習(xí)。前期工作僅限于變量選擇和確定標(biāo)稱運(yùn)行條件,通??捎蒘ME執(zhí)行。
使用基于自組織密度的聚類在自然語(yǔ)言記錄中查找模式。
自然語(yǔ)言記錄在工業(yè)環(huán)境中非常常見(jiàn),它是產(chǎn)品測(cè)試、應(yīng)用程序/安全日志、設(shè)備維護(hù)、物流、運(yùn)輸?shù)纫幌盗辛鞒痰幕A(chǔ)。實(shí)際上,企業(yè)中的大多數(shù)記錄都是半結(jié)構(gòu)化記錄,有一列或多列結(jié)構(gòu)化數(shù)據(jù)(數(shù)字、日期、類別)和一列或多列自然語(yǔ)言文本,通常是為人類消費(fèi)而創(chuàng)建的。在企業(yè)中,對(duì)半結(jié)構(gòu)化記錄的需求幾乎是迫切的。在理想的世界中,收集到的關(guān)于流程的所有數(shù)據(jù)都可以是數(shù)字、日期和多選分類元素。然而,在實(shí)踐中,自然語(yǔ)言被引入記錄有多種原因:
并非所有的過(guò)程模式在設(shè)計(jì)時(shí)都是已知的,從而導(dǎo)致“其他”或“一網(wǎng)打盡”的類別。
指令或程序最好用自然語(yǔ)言表示,并隨著時(shí)間的推移不斷改進(jìn)。
故障排除、診斷、調(diào)查等通常會(huì)生成以前未知的知識(shí),使自然語(yǔ)言成為必要。
企業(yè)中的運(yùn)營(yíng)記錄通常是功能性的/簡(jiǎn)明扼要的,包含打字和口語(yǔ),并且通常包含縮略語(yǔ)和行話(例如ty wrap=Tyvek wrap,ee=employee)。這使得標(biāo)準(zhǔn)搜索和自然語(yǔ)言建模技術(shù)有些無(wú)效。此外,使用自然語(yǔ)言的方法可能有很多種,因此一個(gè)全面的規(guī)范化方案是站不住腳的。例如,上述事件可以按其嚴(yán)重程度(即輕傷)進(jìn)行分類,也可以按受傷點(diǎn)(即手部受傷)進(jìn)行分類。這兩個(gè)類別并不相互排斥,需要將其視為單獨(dú)的分類方案。如果沒(méi)有中小企業(yè)的大力支持,大多數(shù)自然語(yǔ)言記錄很少被分析,而且仍然沒(méi)有被利用。
在自然語(yǔ)言記錄中找到有用模式的一種實(shí)用方法是ad-hoc聚類。為了檢索信息,中小企業(yè)首先對(duì)其記錄使用常見(jiàn)的搜索技術(shù)。然而,閱讀成百上千的結(jié)果往往是乏味的,簡(jiǎn)單地閱讀前“n”個(gè)結(jié)果會(huì)給遺漏的信息留下空間。為了避免這些陷阱,AI對(duì)搜索結(jié)果應(yīng)用基于密度的聚類。當(dāng)基于密度的方法(如DBSCAN或HDBSCAN)用于記錄的句子嵌入時(shí),它們傾向于聚類語(yǔ)義相似的語(yǔ)言,而不會(huì)對(duì)拼寫、變位、錯(cuò)別字和口語(yǔ)高度敏感。SME可以很容易地讀取集群中的幾個(gè)代表性記錄,以完全理解它。此外,對(duì)前“n”個(gè)集群的分析通常會(huì)暴露搜索結(jié)果中的所有主要信息模式。這些聚類現(xiàn)在也可以成為分類方案的初始候選,該方案可以逐步圍繞數(shù)據(jù)創(chuàng)建分類結(jié)構(gòu)。這種技術(shù)在長(zhǎng)尾搜索問(wèn)題中不斷顯示出很高的價(jià)值,因?yàn)镾ME的意圖不能事先準(zhǔn)確和完全知道,但可以隨著時(shí)間的推移進(jìn)行定義和應(yīng)用。
使用發(fā)現(xiàn)循環(huán)從文檔中檢索信息或知識(shí)
為了推動(dòng)關(guān)鍵和時(shí)間敏感的決策,每個(gè)行業(yè)、政府機(jī)構(gòu)和軍事部門的分析師都會(huì)遇到大量必須處理的內(nèi)容。高管們依靠分析師準(zhǔn)確解讀報(bào)告、新聞、咨詢和調(diào)查,為自信、深思熟慮的決策提供決策支持。通過(guò)探索性閱讀尋找正確的內(nèi)容是一種認(rèn)知上的負(fù)擔(dān),并且會(huì)產(chǎn)生決策疲勞。此外,分析師通常在探索深?yuàn)W的概念,這些概念很難用標(biāo)準(zhǔn)搜索工具所需的關(guān)鍵詞和邏輯規(guī)則清晰表達(dá)。分析人士普遍認(rèn)為,“他們看到了就知道了?!?/p>
在考慮上述新聞?wù)浿械臄⑹挛谋臼纠龝r(shí):
第二個(gè)例子實(shí)際上沒(méi)有使用“爆發(fā)”一詞,但中小企業(yè)可能會(huì)很快將其評(píng)估為爆發(fā)的主要指標(biāo)。為了解決這些深?yuàn)W的知識(shí)獲取場(chǎng)景,SME首先使用一個(gè)或多個(gè)代表他們想要找到的想法的關(guān)鍵詞來(lái)搜索他們的文檔。然后,Discovery Loop AI從結(jié)果中選擇25-50個(gè)最具代表性的句子,并使用簡(jiǎn)單的點(diǎn)擊手勢(shì),使SME能夠?qū)⒔Y(jié)果分成一個(gè)或多個(gè)有意義的類別?;蛘撸琒ME還可以指示句子中的子字符串,以便逐字提取。
AI訓(xùn)練CNN分類器學(xué)習(xí)SME指定的類別。任何未加括號(hào)的句子都會(huì)自動(dòng)分配到“不有趣”的類別。這樣訓(xùn)練的模型對(duì)原始搜索結(jié)果中的所有句子進(jìn)行推理。基于推斷的類別預(yù)測(cè)及其相對(duì)預(yù)測(cè)置信度,AI呈現(xiàn)至少兩組句子供SME審查和/或糾正——基于分配給初始組25-50個(gè)句子的類別標(biāo)簽,“最像標(biāo)簽x”和“最不像標(biāo)簽x”。由于人工智能只訓(xùn)練25-50個(gè)句子的模型,并對(duì)搜索結(jié)果進(jìn)行推理,因此循環(huán)通常只需幾分鐘。同樣,每個(gè)復(fù)習(xí)小組只有25-50句話,SME只需要復(fù)習(xí)幾分鐘。這種快速迭代被稱為發(fā)現(xiàn)循環(huán),使SME能夠快速發(fā)現(xiàn)信息,而無(wú)需關(guān)注關(guān)鍵詞,而只需閱讀并做出關(guān)鍵決策。隨著SME管理更多帶標(biāo)簽的句子,AI重新訓(xùn)練分類或提取模型,以提高準(zhǔn)確性,并通過(guò)使用從帶標(biāo)簽句子中提取的關(guān)鍵字執(zhí)行查詢擴(kuò)展來(lái)增加文檔集的覆蓋率。在任何時(shí)候,可以對(duì)文檔集中的所有句子運(yùn)行該模型,以獲得與SME定義的深?yuàn)W概念相匹配的句子的綜合子集,然后可以在分析師報(bào)告中引用或引用這些句子作為證據(jù)。
基于ad-hoc密度的聚類和Discovery Loop與經(jīng)典監(jiān)督分類方法相比具有以下優(yōu)勢(shì):
減少傳統(tǒng)方法前期所需的繁瑣、全面的標(biāo)簽負(fù)擔(dān)
使中小企業(yè)能夠在發(fā)現(xiàn)新信息時(shí)逐步開(kāi)發(fā)類別
使SME能夠僅對(duì)有用的數(shù)據(jù)子集進(jìn)行建模
所有技術(shù)的一個(gè)共同特點(diǎn)是使用AI增強(qiáng)中小企業(yè)的知識(shí)和直覺(jué),使他們能夠?qū)W⒂诟邇r(jià)值決策。通過(guò)避開(kāi)學(xué)術(shù)界流行的經(jīng)典監(jiān)督建模方法,這些技術(shù)通過(guò)提供SME指尖上的即時(shí)智能,專注于快速實(shí)用。
反觀國(guó)內(nèi)也有許多企業(yè)在人工智能領(lǐng)域深耕,沃豐科技就是一家在人工智能領(lǐng)域頗有建樹(shù)的企業(yè)。
沃豐科技是中國(guó)人工智能與營(yíng)銷服務(wù)解決方案提供商,依托人工智能、大數(shù)據(jù)、云計(jì)算等核心技術(shù),打造了一體化客戶全生命周期解決方案。沃豐科技擁有Udesk、GaussMind、ServiceGo、微豐等完整的產(chǎn)品矩陣,將人工智能技術(shù)應(yīng)用到企業(yè)的營(yíng)銷獲客、銷售管理、客戶服務(wù)及企業(yè)內(nèi)部共享服務(wù)等各個(gè)場(chǎng)景,為消費(fèi)品、制造業(yè)、生命科學(xué)、汽車、央國(guó)企、數(shù)字政府、金融等多個(gè)行業(yè)提供定制化解決方案,全面助力企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型,得到眾多世界500強(qiáng)、中國(guó)500強(qiáng)客戶的信賴。
文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來(lái)源:http://www.yzny.net.cn/ucm/update/27090
