欢迎来到中博奥技术有限公司官网

档案实务|人工智能技术如何应用于音视频档案的整理、利用:创新与成效

时间:2022-04-06 作者: 来源:网络 点击量:

本文看点

音视频档案整理、利用的难点?

音视频档案智慧利用系统功能?

浙江省档案馆取得了哪些成效?

引言

信息时代,人们对数据的利用提出了更高的要求,对音视频档案的利用也越来越普遍。但目前音视频档案的整理工作,往往仅限于著录一些简单的主题、责任者、文件格式等条目信息,无法涵盖音视频档案的核心要素,更不用说全部信息内容,无法实现真正意义上的数据化。用户通过计算机检索音视频档案时,仅能看到有限的著录信息,要想真正了解内容则需要打开音视频档案逐一观看、收听,这无疑给音视频档案的采集、整理、著录和利用工作造成了极大不便。


目前国内各省市档案馆在音视频档案的整理、利用方面,普遍存在以下主要问题:

1.音视频文件整理过程中,需要打开文件逐一听取或观看才能区分内容;大量音视频相同属性封装格式编码、码率等重复填写;

2.音视频文件著录过程中,题名著录项至少需要完整观看或听取一遍才能判定,处理效率低、速度慢;

3.音视频档案利用过程中,音视频的内容无法通过有限著录条目得以体现;

4.在查找特定人物的视频档案时,存在只能通过人工查阅进行定位、分类、整理的困难。


据悉,浙江省档案馆目前馆藏数字音视频档案129GB、录音录像档案数字化成果736GB,音视频档案的高效整理、便捷利用一直是个难题。业内专家一致认为,实现音视频档案的文本化,是盘活音视频档案最有效且可行的途径。而人工智能在音视频领域的发展应用,使得音视频档案的文字离线转写、档案征集实时转写、规范化著录成为可能。

人工智能技术在音视频档案

整理利用中的应用研究

2019年8月6日,国家档案局科技项目《人工智能技术在音视频档案整理利用中的应用研究》在浙江正式启动。该课题由科大讯飞与浙江省档案馆共同组建项目组开展合作研究。历时一年,于2020年6月底完成产品研发馆内应用部署。9月3日,项目成果由课题负责人浙江省档案馆副馆长郑金月、科大讯飞智慧档案业务部总经理张海剑正式在浙江发布。


该课题结合人工智能技术在音视频的应用,利用科大讯飞基于RNN(循环神经网络模型)独创的深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)语音识别框架研究对音视频档案的整理、利用展开研究,围绕以下三个方面进行攻关:

1.实现音视频档案采集的实时识别与转译,形成音视频文件和对应的数字全文内容;针对馆藏离线历史音视频档案,研究如何将长时语音转译为文字、以数字形式输出全文内容;

2.辅助人工对音视频档案进行整理、著录,自动识别内容中的相关著录项;

3.实现字幕文件与音视频同步播放,播放时实时显示字幕;管理利用时,点击每一段文字,便能够播放对应的原始音频,辅助音视频档案的检索。

目前,浙江省档案馆正在利用“讯飞音视频档案智慧利用系统”对馆藏口述史、新闻联播、会议档案等音视频内容进行编辑整理。该系统将作为浙江省首个应用人工智能技术的专业声像档案管理平台融入浙江省智慧档案馆建设中。

讯飞音视频档案

智慧利用系统的功能特色

1.音视频档案全文数据化,开启数字记录管理新模式。

音视频档案智慧利用系统可根据预先设置的规则与条件,自动将音频、视频拆分成主题不同的片段,利用音频转写技术及文本分析技术,实现对音视频档案数据化结果的内容要素的自动提取、人工标注、完成部分著录项的著录,同时还具备视频打点、拆条等功能。

音视频档案的全文数据化,主要通过语音识别、自然语言理解NLP等人工智能技术来解决当前音视频档案的管理难点,满足档案管理人员对音视频内容自动编目的需求。

该系统同时实现了对视频进行人像数据提取,为后期档案查询利用奠定基础。最终形成一套声像档案智慧管理模块,方便音视频档案的快捷归档利用。

2.建立关键人物库,实现档案数据的智能挖掘聚合。

在档案数据保存上,音视频档案智慧利用系统打破了传统音视频文件单一存储模式,实现音视频档案的有序存储。

针对传统的目录+原文的存储方式,新增了人物信息存储,通过预置相关人物人脸数据,在后台视频处理时进行比对,输出视频人物信息标注,打造“视频+音频+文字+人脸+目录”创新存储模式。

利用人脸识别技术,在馆藏声像档案存储过程中,检测提取人脸,建立视频人脸库。通过对比政要/明星人脸库,完成视频人物标注,同时支持“1vN”人脸检测,关联视频所在事件文本信息。人脸库的建立,加速视频文件内容的快速检索利用。

3.音视频档案智慧利用,实现文字+图像检索。

在音视频档案的检索利用方面,音视频档案智慧利用系统实现了“文字+图像”的双重检索。

传统的文字检索仅能查询到档案题名、标签等目录信息,音视频档案智慧利用系统则在全文数据化的基础上,实现了音视频转写后文本信息的定位,真正做到全文检索、内容检索。

而图像检索则可以自动根据上传图片匹配人物人脸信息,并在视频中给予出现次数与时间轴标记,视频转写后可自动提取标注人物信息,人物信息会自动定位到视频片段,再次对视频图像进行结构化处理,结构化存储。

结语

音视频档案智慧利用系统针对音视频档案的特殊性,以突出特色为重点,利用最新声像技术、手段和方法,提高声像档案管理利用水平,保存最直观的历史发展和建设成果的永久记忆,为政府和社会大众提供更高效、优质的信息共享利用服务。

浙江省档案馆副馆长郑金月认为,将人工智能应用于音视频档案的整理、利用,最显著的成效体现在:音视频档案文本化输出、通过文本内容检索音视频、通过人脸识别检索音视频,大大提高了可用性和检索效率。1小时的音视频档案如果人工整理成文本,需要4-5个小时;而使用人工智能语音识别技术,只需10分钟!

撰文:孟修竹

编辑:安新宇

标签

|
我是中博奥客服:小奥
中博奥技术有限公司& 版权所有工信部备案号:豫ICP备11015869号-8 Copyright © 2023-2024

档案整理档案数字化

档案扫描档案管理软件系统

TEL:18937133779

To Top