語(yǔ)音識(shí)別轉(zhuǎn)寫(xiě)引擎 PM-54459GCY軟件(V3.017)
語(yǔ)音識(shí)別服務(wù)軟件是人工智能技術(shù)開(kāi)發(fā),面向各行業(yè)客戶提供的一款語(yǔ)音轉(zhuǎn)寫(xiě)產(chǎn)品。該產(chǎn)品為客戶提供整套語(yǔ)音轉(zhuǎn)寫(xiě)方案,幫助客戶快速將音頻轉(zhuǎn)換為文本。產(chǎn)品針對(duì)長(zhǎng)語(yǔ)音場(chǎng)景做了多項(xiàng)核心技術(shù)優(yōu)化,在遠(yuǎn)場(chǎng)、噪音環(huán)境下的識(shí)別率大幅提升,技術(shù)業(yè)界領(lǐng)先。產(chǎn)品提供異步文件轉(zhuǎn)寫(xiě)、實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(xiě)兩個(gè)核心功能,滿足客戶的不同需求。錄音文件識(shí)別,支持客戶將音頻文件上傳識(shí)別成文字;實(shí)時(shí)語(yǔ)音識(shí)別,支持客戶上傳音頻流,獲得識(shí)別后的文字流結(jié)果。
產(chǎn)品特點(diǎn)
1.實(shí)時(shí)長(zhǎng)語(yǔ)音識(shí)別:基于深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),通過(guò) WebSocket 協(xié)議,建立應(yīng)用與語(yǔ)音識(shí)別引擎的長(zhǎng)鏈接,對(duì)不限時(shí)長(zhǎng)的音頻流作實(shí)時(shí)識(shí)別,可以做到“邊說(shuō)話邊同步輸出文字”的效果,內(nèi)置智能斷句,可提供每句話開(kāi)始結(jié)束時(shí)間,適用于實(shí)時(shí)直播字幕、實(shí)時(shí)會(huì)議記錄、實(shí)時(shí)法庭庭審等場(chǎng)景。
2.語(yǔ)音識(shí)別準(zhǔn)確率:標(biāo)準(zhǔn)普通話轉(zhuǎn)寫(xiě)準(zhǔn)確率≥98.5%。(轉(zhuǎn)寫(xiě)的準(zhǔn)確率與普通話標(biāo)準(zhǔn)程度和發(fā)音清晰度有關(guān))
3.語(yǔ)音識(shí)別速度:依托語(yǔ)音轉(zhuǎn)寫(xiě)技術(shù),實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(xiě)速度≤200毫秒。
4.一句話識(shí)別:支持對(duì)時(shí)長(zhǎng)較短(60 秒以內(nèi))的語(yǔ)音進(jìn)行識(shí)別,非實(shí)時(shí)的返回識(shí)別結(jié)果,返回結(jié)果延遲小于5秒。
5.支持多種音頻編解碼格式:目前實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫(xiě)支持pcm格式音頻編解碼算法。非實(shí)時(shí)轉(zhuǎn)寫(xiě)支持mp3、wav、wma、mp4、avi、pcm、m4a等格式音頻。目前音頻采樣率僅支持16K和8K。
6.文本后處理:語(yǔ)音轉(zhuǎn)寫(xiě)私有云支持對(duì)識(shí)別結(jié)果語(yǔ)句智能預(yù)測(cè)其對(duì)話語(yǔ)境,提供智能斷句和標(biāo)點(diǎn)符號(hào)的預(yù)測(cè),同時(shí)也支持?jǐn)?shù)字規(guī)整和替換列表能力。
7.錄音文件轉(zhuǎn)寫(xiě):錄音文件轉(zhuǎn)寫(xiě),通過(guò) http[s]協(xié)議調(diào)用識(shí)別服務(wù),將長(zhǎng)段音頻錄音(5小時(shí)以內(nèi))轉(zhuǎn)寫(xiě)成文本數(shù)據(jù),可用于采訪錄音轉(zhuǎn)寫(xiě)、庭審數(shù)據(jù)錄入、會(huì)議記錄總結(jié)、呼叫中心錄音質(zhì)檢等場(chǎng)景,支持錄音分片上傳、說(shuō)話人角色分離、自定義熱詞和敏感詞配置等功能。
8.軟件識(shí)別語(yǔ)言僅支持中文普通話。
9.可懂度高:提供口語(yǔ)順滑、熱詞、敏感詞檢測(cè)、數(shù)字規(guī)整、智能標(biāo)點(diǎn)預(yù)測(cè)、智能分段等功能,有效提升文稿可讀性和可懂度。
10.支持150路并發(fā)
網(wǎng)站內(nèi)容僅供參考,本公司保留最終解釋權(quán)!