苏州市建设局招标网站首页,网站建设标语,大连网络seo公司,本地wordpress外网访问简介
2021年7月13日#xff0c;我和我的三个研究生一起拜访了玉米树#xff0c;和王总等一起针对睡眠音频分割及识别问题进行了深入的讨论#xff0c;达成了如下共识。
输入
由于保存整个晚上的睡眠音频所需要的存储空间过大#xff0c;目前拟采用每隔30分钟#xff08…简介
2021年7月13日我和我的三个研究生一起拜访了玉米树和王总等一起针对睡眠音频分割及识别问题进行了深入的讨论达成了如下共识。
输入
由于保存整个晚上的睡眠音频所需要的存储空间过大目前拟采用每隔30分钟可自定义录制一段睡眠音频然后对这段音频进行分割及识别并保存鼾声、梦话等片段。 选择30分钟作为时间片段主要基于存储空间的考虑下面对存储空间进行分析。 30分钟单通道、16位采样位数、采样频率44.1kHz音频的不压缩数据存储量计算方法如下 每秒44100个采样点44100 * 288200字节30分钟30 * 60 * 88200158760000字节 158760000/1024/1024 约等于150MB。
输出
1一些睡眠事件的开始和结束时间比如鼾声、梦话、翻身、咳嗽、打喷嚏、磨牙及其它
开始和结束时间有两种方式来表示第一种方式是以事件为基础时间不定长第二种方式是以固定时间段为基础时间定长用户设定到底采用哪种方式需要进一步讨论如果采用以事件为基础则涉及到音频片段合并策略 2这些睡眠事件对应的标签分布。
方案
采用的方案包括音频分割及识别两个方面。
分割策略
策略一对音频按等时长进行分割如每隔4s可自定义然后对分割后的音频进行识别如果是静默音则不保存 优点计算资源要求较低 缺点容易漏测或者多测预测精度较低。比如在第3s开始打鼾预测时第一个窗口被认定为鼾声这会导致0~4s都认为是鼾声。
策略二采用滑动窗口进行分割如窗口大小为4s(可自定义)步长为1s(也可自定义一般要小于窗口长度)对每个窗口执行预测若为目标检测事件则记录开始时间与结束时间。 优点这种策略分割的音频就会有重叠部分可以更好的检测音频事件的开始位置 缺点音频重复参与运算计算资源要求较高。 准备对两个策略进行对比实验后再决定最终方案选择哪个策略。
识别方法
拟采用PANN框架YouTube进行识别面临的问题有 1睡眠声音识别后大致划分为鼾声、梦话、翻身、咳嗽、打喷嚏、磨牙、其它几个大类 2在PANN框架中有527个音频类别但没有翻身、梦话、磨牙等我们需要的类别。 3梦话的形式较多可能包括尖叫、呻吟、普通说话声、嗡嗡声等复杂声音不太确定能归为527个类别中哪些类。 4如何平滑连续音频的问题我们认为连续音频之间具有某种关联性如何刻画这种关联性呢可以作为研究生发表论文的方向 拟采用如下方法来解决 1音频获取从网络上获取翻身、梦话、磨牙等音频如freesound.org如果网络上没有则需要我们自己来录制这些音频 2解决标签不匹配问题基于获取到的翻身、梦话、磨牙等音频利用PANN框架进行识别看看该框架会给出什么标签则将该标签作为翻身、梦话、磨牙对应的标签。 3连续音频的处理一个10s的连续音频首先得到每个1s音频的标签分布然后对这10s进行一个标签分布的平均最后根据这个平均值来进行综合判断这个处理需要再讨论。
平台兼容性
建议开发出适用于Android及IOS的版本。
Android版本目前进展及面临的问题
1、目前的进展 可以使用PANN框架对分割后的音频片段进行识别识别的类型为该框架提供的527个类别还没有根据目前的需求识别出规定的类别 2、下一步的工作 1采集翻身、梦话、磨牙等类型的音频进行识别获得对应的标签类别 2编写开发文档及Java代码代码符合玉米树规范采用面向对象利于后期维护。 3、面临的问题 使用android studio运行程序遇到卡壳问题建议重新创建一个线程来运行。
IOS版本目前进展及面临的问题
1、目前进展还没有开始。 2、可能会面临的问题使用xcode运行IOS程序时会遇到一些底层代码调用报错问题重写会比较麻烦。
其它
PANNs模型需要wav文件必须是单通道采样率为32kHz而YAMNet模型需要wav文件也必须是单通道采样率为16kHz。
时间及人员安排
实验部分
音频采集及测试2周。梁翔宇、樊俊 分割策略实验2周。容斌元、李鹏程
开发部分
提供一个接口输入是音频文件返回分割后的音频及标签分布。 1Android端代码开发及文档编写4周。梁翔宇、樊俊 2IOS端代码开发及文档编写4周。容斌元、李鹏程
参考文献
[1] PANN框架 [2] 玉米树程序编写规范