在信息碎片化的時代,如何做到短、平、快成為當下眾多新媒體需要掌握的重要本領之一。新聞創作者往往需要高頻、精準的進行信息收集、撰寫和發布,特別是隨著元宇宙概念的興起,虛擬場景中熱點事件的報道更是增加了新聞創作者的工作量。
為幫助新聞創作者更快、更準捕捉到新聞信息,馬上消費金融股份有限公司(下稱“馬上消費”)舉辦的2022屆“天馬杯”全國高校科技創新大賽,聚焦NLP賽道,開設了“數字人播報資訊內容生成”賽題,以實現資訊內容自動生成。
據悉,資訊內容自動生成屬于深度學習領域的端到端生成式任務,在給定新聞主題、新聞時間、新聞人物等要素的前提下自動生成一篇完整的新聞。不同于機器翻譯和文本摘要(給定1篇長文輸出摘要信息)任務,資訊內容自動生成需要在給定信息的前提下進行內容擴寫,這需要智能機器人有一定的知識儲備,并能夠在特定的環境和場景中使用合適的語言進行陳述。
目前市場上的撰稿機器人多數是基于模板的方式進行新聞創作,或是對已發布新聞重組和改寫。雖然內容流暢、可讀性高,但并不是原創,而且如果嚴格按照模板來引導模型還會導致生成內容單調、多樣性差的問題,與人工撰稿有著很大差距。
馬上消費設置“數字人播報資訊內容生成”賽題的目的就是為了解決以上問題,同時不斷挖掘和探討如何將撰稿人的行文邏輯、文風等引入模型的生成風格當中。也就是說,“天馬杯”大賽的參賽者需要掌握深度學習算法、機器學習算法,且對NLP中的文本生成任務(seq2seq)、預訓練模型(Bert、GPT、BART等)有一定的了解。
隨著核心技術愈加成熟,元宇宙也逐漸從概念走向臺前。《“十四五”數字經濟發展規劃》也強調,我國將“深化虛擬現實、人工智能、8K高清視頻等技術的融合,拓展社交、購物、娛樂及展覽等領域的應用,支持實體消費場所建設數字化消費新場景,推廣虛實交互體驗等應用”。
作為一家科技驅動型金融機構,馬上消費早在2017年就專門成立了人工智能研究院,在資訊內容生成方面也做出了很多探索性的工作,包括基于模板的資訊內容生成,如何根據歷史新聞數據實現模板的自動化歸納;基于模型的生成式新聞,如何根據提示信息來控制新聞生成的主題方向、內容質量;通過模板與模型相結合的方式進行優勢互補等,經多次實驗,已初步形成了一套自動撰稿的流程方案。
且根據實驗發現,從模型訓練到新聞的生成與發布都體現了歷史新聞的重要性,天馬杯“數字人播報資訊內容生成”將為新聞的生成規律、陳述方式、寫作模板、寫作文風等提供更多可能。