基於交叉三融合注意力機制的多分支美學與技術視角下的無參考視聽質量評估

我們很高興地宣布,我們近期發表的期刊論文「基於交叉三融合注意力機制的多分支美學與技術視角下的無參考視聽質量評估」已於本月(2026年3月)在《IEEE視頻技術電路與系統學報》(TCSVT)被接收。論文由本院與香港理工大學合作完成:

  • Ngai-Wing Kwong, Yui-Lam Chan, Ziyin Huang, and Sik-Ho Tsang, “Multi-Branch Aesthetic and Technical Perspectives with Cross Tri-Fusion Attention for No-Reference Audio-Visual Quality Assessment,” IEEE Transactions on Circuits and Systems for Video Technology, doi: 1109/TCSVT.2026.3674552.

論文連結:https://ieeexplore.ieee.org/document/11435472

論文摘要

在當今資訊快速傳播、短視頻在Instagram、YouTube和TikTok等社交媒體平台上佔據主導地位的時代,確保高質量的音頻和視頻變得日益重要。傳統的質量評估方法通常只專注於音頻或視頻的某一部分,然後將結果合併。然而,這種方法忽略了音頻和視頻之間的相互作用,而這種相互作用會影響觀眾對視頻的體驗。

為了解決這個問題,我們開發了一種新的模型,可以同時評估音頻和視頻質量。該模型包含多個部分(或“分支”),每個部分都專注於質量的不同方面。其中一個部分採用了一種我們稱為跨維度音頻視頻融合(CDAVF)的新技術,該技術有助於模型理解音頻和視頻如何相互影響。另一個部分檢視失真或噪音等技術問題,而第三部分則著重內容對觀眾的愉悅感和意義。

在收集了所有這些資訊之後,我們的模型採用了一種名為交叉三融合注意力機制(CTFA)的新方法,將所有資訊智能地融合在一起,從而做出更準確的質量判斷。

我們使用專業視頻資料集和用戶生成的視頻資料集測試了我們的模型,發現其性能始終優於現有方法。這表明我們的方法在評估音視頻內容的整體質量方面更加準確可靠。

我們將繼續深化與頂尖研究機構的合作,共同開發尖端技術!

研究團隊成員

香港珠海學院

曾錫豪博士,資訊科學學系助理教授

香港理工大學

鄺毅榮博士,電機及電子工程學系博士後研究員

陳銳霖博士,電機及電子工程學系副教授兼副系主任

黃子茵博士,電機及電子工程學系博士後研究員

 

一些關於學術論文的照片

我們提出的 NR-AVQA 神經網路模型的整體框架。

我們在美學質量方面提出的微調流程。

ADMISSION