专利 一种音视频监控方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221073940 0.9 (22)申请日 2022.06.28 (71)申请人世邦通信股份有限公司地址 410205 湖南省长沙市高新开发区麓谷街道南塘路70号 (72)发明人仇波　谭理　金鑫　伊新华　 (74)专利代理机构湖南仁翰律师事务所 4325 0 专利代理师邹灿 (51)Int.Cl. H04N 5/225(2006.01) H04N 5/232(2006.01) H04N 7/18(2006.01) H04R 1/08(2006.01) (54)发明名称一种音视频监控方法及系统 (57)摘要本发明公开了一种音视频监控方法及系统，该方法包括获取当前视频监控图像变焦倍数；判断变焦倍数是否超过预设阈值；获取当前视频监控图像对应的麦克风阵列模块的输出增益；获取当前视频监控图像对应的混音信号；切换为与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器；获取与当前视频监控图像对应的远场拾音器的输出增益；获取当前视频监控图像对应的音频数据。本发明通过在对视频监控图像进行变焦操作后，选择合适的麦克风阵列模块或远场拾音器采集的音频数据进行输出，保证了视频监控图像对应的音频输出的质量，从而提高视频监控图像与麦克风阵列模块或远场拾音器输出的音频数据两者之间的适配度，有效提升用户体验。权利要求书4页说明书15页附图5页 CN 115134499 A 2022.09.30 CN 115134499 A 1.一种音视频监控方法，其特征在于，包括如下步骤：步骤S110、获取当前视频监控图像对应的远场拾音器；步骤S120、获取当前视频监控图像相对于初始视频监控图像对应的变焦倍数Z；步骤S130、通过公式获取与当前视频监控图像对应的远场拾音器的输出增益gfarfield；其中， Zmax为摄像头组件的预设最大变焦倍数， gmax为该远场拾音器的预设最大输出增益；步骤S140、基于远场拾音器的输出增益gfarfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行调节。 2.根据权利要求1所述的音视频监控方法，其特征在于，所述步骤S110的方法，包括以下步骤：步骤S111、建立二维坐标系，获取二维坐标系下初始视频监控图像中各个像素点对应的坐标及二维坐标系下各个远场拾音器所在位置对应的坐标(x1， y1)， (x2， y2)，……(xN， yN)；步骤S112、获取当前视频监控图像中的图像画面中心点位置坐标(x0， y0)；步骤S113、通过公式选择di为最小值时位置坐标对应的远场拾音器，记为第一远场拾音器，该位置坐标对应的远场拾音器即为与当前视频监控画面适配的远场拾音器， 1≤i≤N， N 为远场拾音器放置的数量总数。 3.根据权利要求2所述的音视频监控方法，其特征在于：所述步骤S113之后，还包括步骤 S1 1 4 、在当前视频监控图像中的图像画面进行移动时，通过公式选择di为最小值时位置坐标对应的远场拾音器，记为第二远场拾音器，当第二远场拾音器的位置坐标与第一远场拾音器的位置坐标相同时，当前视频监控图像对应的远场拾音器仍保持为第一远场拾音器；当第二远场拾音器的位置坐标与第一远场拾音器的位置坐标不同时，当前视频监控图像对应的远场拾音器由第一远场拾音器切换为第二远场拾音器。 4.一种音视频监控方法，其特征在于，包括如下步骤：步骤S210、获取当前视频监控图像相对于初始视频监控图像的变焦倍数Z；步骤S220、判断当前视频监控图像相对于初始视频监控图像的变焦倍数Z是否超过预设阈值Zc，若否，则转入执行步骤S23 0，若是，则转入执行步骤S25 0；步骤S230、通过公式获取当前视频监控图像对应的麦克风阵列模块的输出增益glocal；其中， Zc是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数； gc是在当前视频监控图像相对于初始视频监控图像的变焦倍数为Zc时，麦克风阵列模块输出音频数据的最大增益； Z是当前视频监控图像相对于初始视频监控图像的变焦倍数；步骤S240、基于麦克风阵列模块的输出增益glocal对当前视频监控图像对应的麦克风阵列模块采集的音频数据进行混音处理，获取当前视频监控图像对应的混音信号；其中，所述权　利　要　求　书 1/4 页 2 CN 115134499 A 2麦克风阵列模块采集的音频数据信号包括左波束信号xl_beam(n)、右波束信号xr_beam(n)、前波束信号所述混音信号为左波束信号与增益为 glocal的前波束信号叠加形成的左声道信号xL(n)及右波束信号与增益为glocal的前波束信号叠加形成的右声道信号xR(n)；步骤S250、将当前视频监控图像对应的麦克风阵列模块切换为与当前视频监控图像的图像画面中心点位置坐标距离最小的远场拾音器；步骤S260、通过公式获取与当前视频监控图像对应的远场拾音器的输出增益gfarfield；其中， Zmax为摄像头组件的预设最大变焦倍数， gmax为该远场拾音器的预设最大输出增益； Zc是当前视频监控图像对应的音频数据由麦克风阵列模块采集获取时，当前视频监控图像相对于初始视频监控图像的最大变焦倍数；步骤S270、基于远场拾音器的输出增益gfarfield对与当前视频监控图像对应的远场拾音器采集的音频数据进行增益调节，获取当前视频监控图像对应的音频数据。 5.根据权利要求4所述的音视频监控方法，其特征在于，所述步骤S250的方法，包括以下步骤：步骤S251a、建立二维坐标系，获取二维坐标系下初始视频监控图像中各个像素点对应的坐标及二维坐标系下各个远场拾音器所在位置对应的坐标(x1， y1)， (x2， y2)， ......(xN， yN)；步骤S252a、获取当前视频监控图像的图像画面中心点坐标(x0， y0)；步骤S253a、通过公式选择di为最小值时的位置坐标对应的远场拾音器，记为第一远场拾音器，该位置坐标对应的远场拾音器为与当前视频监控画面适配的远场拾音器， 1≤i≤N， N 为远场拾音器放置的数量总数。 6.根据权利要求5所述的音视频监控方法，其特征在于，所述步骤S253a之后，还包括步骤S254a 、在当前视频监控图像中的图像画面进行移动时，通过公式选择di为最小值时位置坐标对应的远场拾音器，记为第二远场拾音器，当第二远场拾音器的位置坐标与第一远场拾音器的位置坐标相同时，当前视频监控图像对应的远场拾音器仍保持为第一远场拾音器；当第二远场拾音器的位置坐标与第一远场拾音器的位置坐标不同时，当前视频监控图像对应的远场拾音器由第一远场拾音器切换为第二远场拾音器。 7.根据权利要求4所述的音视频监控方法，其特征在于，所述步骤S250的方法，包括以下步骤：步骤S251b、建立二维坐标系，获取二维坐标系下初始视频监控图像中各个像素点对应的坐标及二维坐标系下各个远场拾音器所在位置对应的坐标(x1， y1)， (x2， y2)，……(xN， yN)；步骤S252b、获取当前视频监控图像中标示点的位置坐标，以标示点的位置坐标作为当前视频监控图像中的图像画面的中心位置(x0， y0)；权　利　要　求　书 2/4 页 3 CN 115134499 A 3

专利 一种音视频监控方法及系统

专利一种音视频监控方法及系统