有一群人正在教AI說蘇州話


來源:中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時間:2020-05-27





  方言語音識別輸入在長三角人日常生活中的應(yīng)用值得期待。對著手機(jī)的麥克風(fēng)說幾句鄉(xiāng)音,就已經(jīng)參與到了方言保護(hù)的工作中。


  日前,全國人大代表、南京市人大常委會主任龍翔提交了一份關(guān)于深入推進(jìn)漢語方言傳承工作的建議。他認(rèn)為,長三角地區(qū)城市化快速發(fā)展帶來的大規(guī)模人口流動,縮小和降低了方言使用范圍和使用率,或是導(dǎo)致長三角方言漸失活力乃至逐步萎縮的主因之一。


  龍翔指出,以南京為例,統(tǒng)計顯示南京話在家庭生活中使用比例最高,達(dá)62.8%;而在日常工作中使用的比例最低,僅為39.8%。與此同時,南京暫住人口每增長1%,普通話使用率約增長2.3%;人口內(nèi)部流動還使南京原下關(guān)區(qū)特有的、具有區(qū)域特色的讀音近乎消失。


  方言承載著地域文化內(nèi)涵,更是人們鄉(xiāng)情的根系。然而,在經(jīng)濟(jì)社會高速發(fā)展的今時今日,方言卻在我們的日常生活中漸行漸遠(yuǎn)。如何留住正在遠(yuǎn)去的方言?一家長三角企業(yè)如今正利用人工智能技術(shù),“教”AI說蘇州話。此前,一項面向全國的本土出生人群方言使用情況的調(diào)查顯示,包括上海、蘇州、杭州、寧波、溫州在內(nèi)的多個長三角城市,6到20歲人群能夠熟練使用各自方言的比例在全國普遍偏低,其中墊底的蘇州僅為2.2%。


  人工智能+長三角方言能有啥效果?


  復(fù)制方言


  在2019年于蕪湖舉辦的首屆長三角一體化發(fā)展高層論壇上,科大訊飛董事長劉慶峰的發(fā)言帶著皖南口音,被快速精準(zhǔn)地識別成文字,并同步放到了大屏幕上??磥恚窖院涂谝舨皇钦Z言識別技術(shù)的障礙。總部設(shè)在安徽合肥的科大訊飛目前對保護(hù)方言的解決方案是“復(fù)制方言”??拼笥嶏w消費(fèi)者輸入法業(yè)務(wù)部總經(jīng)理程坤這樣解釋訊飛方面的構(gòu)想:“我們的目標(biāo)是利用人工智能技術(shù),不斷提升方言語音識別、合成和翻譯的能力。一旦能夠?qū)崿F(xiàn)這幾點(diǎn),也就意味著一門方言被完整地‘拷貝’下來了。即使有朝一日這門方言無人再使用,也能夠?qū)崿F(xiàn)數(shù)據(jù)留檔,并翻譯成主流的通行語言?!?/p>


  聯(lián)合國教科文組織的統(tǒng)計數(shù)據(jù)顯示,世界范圍內(nèi),每兩周就有一種語言消失。為方言留檔,確實意義重大。然而,雖然2017年科大訊飛就在蘇州成立了分支機(jī)構(gòu),但是人工智能的蘇州話,還是得有人“教”。


  程坤說,“教”AI說方言,是一個手把手、一字一句教學(xué)的過程。首要任務(wù)是要進(jìn)行大規(guī)模的數(shù)據(jù)采集,采集的數(shù)據(jù)在經(jīng)過標(biāo)注后,便可以形成語料庫。然后利用語料庫,結(jié)合機(jī)器學(xué)習(xí)技術(shù),訓(xùn)練方言識別模型:“語料庫里有很多方言音頻,每一條音頻有對應(yīng)的文本。而所謂的教學(xué)過程,簡單來說就是告訴AI,這段音頻對應(yīng)的是這段文字。如此反復(fù),AI最終就能‘學(xué)會’這門方言?!?/p>


  教AI說方言,數(shù)據(jù)采集是最吃功夫的部分。據(jù)程坤介紹,傳統(tǒng)的做法是實地前往各個方言地區(qū),通過與當(dāng)?shù)厝说拿鎸γ娼涣?,收集?dāng)?shù)胤窖灾刑赜械脑~匯、俚語等音頻數(shù)據(jù)。采集完成后,數(shù)據(jù)標(biāo)注工作同樣大量依賴人力。程坤說:“工作人員首先要對音頻的質(zhì)量進(jìn)行判斷,剔除音頻質(zhì)量不好的數(shù)據(jù),然后將保留下來的數(shù)據(jù)轉(zhuǎn)寫成文字?!?/p>


  應(yīng)用前景


  由于方言所對應(yīng)文字相當(dāng)一部分沒有統(tǒng)一標(biāo)準(zhǔn),因此在進(jìn)行標(biāo)注前,“教材編纂”團(tuán)隊需要制定方言用字規(guī)范。他們會大量參考官方文獻(xiàn),逐一進(jìn)行確認(rèn)。對于在文獻(xiàn)中找不到的文字,則需再調(diào)研當(dāng)?shù)厝说挠米至?xí)慣,選出接受度最高的作為該方言詞語的對應(yīng)用字。


  “想要讓人工智能真正學(xué)會一門方言,始終離不開方言母語者的實際參與。開發(fā)方言輸入法,也是為了能夠創(chuàng)造更多的方言應(yīng)用場景,為語料庫的數(shù)據(jù)錄入創(chuàng)造條件?!背汤ぬ寡裕绾巫尭嗟姆窖阅刚Z者參與到語料庫的建設(shè)和數(shù)據(jù)標(biāo)準(zhǔn)的工作中,是“教”AI說方言的一大難點(diǎn)。


  5月18日,訊飛方面與蘇州博物館的一次跨界合作,或可視作為AI尋找更多民間“方言老師”的嘗試:在第44個國際博物館日,雙方合作推出一款微信小程序,用戶可以用蘇州話講述蘇博館藏文物的歷史,并進(jìn)行上傳和分享。而用戶上傳的這些蘇州話音頻,在經(jīng)過篩選和標(biāo)注后,將成為AI“學(xué)習(xí)”蘇州話的“教材”。


  程坤表示,蘇州話是吳方言中重要的一支和典型代表,因此蘇州話的保護(hù)極具標(biāo)桿意義。另一方面,蘇州話近年來的活力不容樂觀,尤其在青少年中的使用率下降可謂斷崖式。程坤說:“訊飛輸入法跨界聯(lián)動蘇州博物館,借助方言講述文物歷史的形式,是希望激發(fā)大眾參與方言傳承和保護(hù)的熱情,就像保護(hù)以蘇州話為載體的昆曲、評彈、蘇劇那樣,增強(qiáng)蘇州市民對蘇州話的認(rèn)同感和自豪感。”


  如果說訊飛與蘇博的此次合作尚是一次“應(yīng)景”之舉,那么方言語音識別輸入在日常生活中的應(yīng)用則更值得期待。當(dāng)操著各自方言的長三角人拿著手機(jī)用語音進(jìn)行輸入時,遠(yuǎn)在云端的AI的“教材”也在不斷地被充實。這也意味著,僅僅是對著手機(jī)的麥克風(fēng)說幾句鄉(xiāng)音,就已經(jīng)切實參與到了方言保護(hù)的工作中。隨著越來越多的人在日常生活中參與到“教材編纂”的工作中,AI掌握一口正宗吳儂軟語的日子或許為期不遠(yuǎn),未來智能語音識別也將應(yīng)用到更多的生活場景中去。



  轉(zhuǎn)自:解放日報

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系:010-65367254。

延伸閱讀

熱點(diǎn)視頻

清明祭||梁學(xué)章:英雄不死,精神永存 清明祭||梁學(xué)章:英雄不死,精神永存

熱點(diǎn)新聞

熱點(diǎn)輿情

特色小鎮(zhèn)

?

微信公眾號

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964