全网唯一标准王
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111627228.X (22)申请日 2021.12.28 (71)申请人 南京大学 地址 210023 江苏省南京市栖霞区仙林大 道163号 (72)发明人 胡海冬 程华仔 廖可薇 王瑾丰  吴兵 任洪强  (74)专利代理 机构 北京栈桥知识产权代理事务 所(普通合伙) 11670 代理人 刘婷 (51)Int.Cl. G01N 27/62(2021.01) G06N 20/00(2019.01) G06F 17/14(2006.01) G06N 5/00(2006.01) (54)发明名称 一种基于机器学习的污水有机氮生物有效 性评价方法 (57)摘要 本发明公开了一种基于机器学习的污水有 机氮生物有效性评价方法, 属于污水处理技术领 域。 本发明的方法包括以下步骤: (1)收集污水水 样中有机氮分子组分信息和生物有效性数据; (2)建立基于机器学习的污 水有机氮生物有效性 预测模型; (3)测定目标污水厂的污水水样中有 机氮分子组分; (4)根据步骤(2)建立的模型预测 目标污水厂的污水有机氮生物有效性。 本发明提 供的方法检测速度快、 准确度高、 操作 简便, 可广 泛应用于 污水有机氮生物有效性的评价。 权利要求书3页 说明书7页 附图3页 CN 114295707 A 2022.04.08 CN 114295707 A 1.一种基于 机器学习的污水有机氮生物有效性评价方法, 其特 征在于, 包括以下步骤: (1)收集污水 水样中有机氮分子组分信息和生物有效性数据; (2)建立基于 机器学习的污水有机氮生物有效性预测模型; (3)测定目标污水厂的污水 水样中有机氮分子组分; (4)根据步骤(2)建立的预测模型评价目标污水厂的污水有机氮的生物有效性。 2.根据权利要求1所述的一种基于机器学习的污水有机氮生物有效性评价方法, 其特 征在于, 所述步骤(1)中, 污水水样中有机氮分子组分信息来源于傅里叶变换离子回旋共振 质谱测定的数据, 污水有机氮生物有效性数据来源于藻类生物培 养测定的数据。 3.根据权利要求1所述的一种基于机器学习的污水有机氮生物有效性评价方法, 其特 征在于, 所述 步骤(2)中, 预测模型 是基于机器学习中的随机森林模型建立的, 建立方法为: (a)计算有机氮分子参数, 将所述有机氮分子参数作为特征值, 并进行数据标准化处 理; (b)寻找最佳 特征数量, 并通过 特征排名确定需要删除的特 征; (c)划分数据集, 得到训练&验证集和测试集, 优化模型超参数并使用5折交叉验证评估 模型性能; (d)选取最佳的模型超参数, 训练后得到预测模型, 并在所述测试集上最终评估预测模 型的性能。 4.根据权利要求3所述的一种基于机器学习的污水有机氮生物有效性评价方法, 其特 征在于, 步骤(a)中, 作为所述特征值的有机氮分子参数包括: 所有有机氮分子的分子参数 和7组分子类别的有机氮分子参数; 所述所有有机氮分子的分子参数包括: 有机氮分子的质荷比m/z、 碳原子数C、 氢原子数 H、 氧原子数O、 氮原子数N、 氧原子数与碳原子数比值O/C、 氢原子数与碳原子数比值H/C、 等 效双键数DBE、 等效双键数与氢原子数比值DBE/H、 等效双键数与氧原子数比值DBE/O、 等效 双键与氧原子数之差除以碳原子数(DBE ‑O)/C、 碳的标称氧化态 NOSC的平均值; 所有有机氮 分子参数的强度加权平均值, 即分子相应的相对峰强度分别 与m/z、 C、 H、 O、 N、 O/C、 H/C、 DBE、 DBE/H、 DBE/O、 (DBE‑O)/C、 NOSC乘积的总和; 所述7组分子类别分别为: 脂类lipids、 蛋白质/氨基酸类proteins/amino  sugars、 糖 类carbohydrates、 不饱和烃类unsaturated  hydrocarbons、 木质素类lignin、 单宁酸类 tannins和稠环芳烃类conden sed aromatics; 其中, 脂类lipids的筛选 条件为O/C<0.2、 1.7 <H/C<2.2, 蛋白质/氨 基酸类proteins/amino sugars的筛选条件 为0.2<O/C<0.6、 1.5<H/C< 2.2、 N/C≥0.05, 糖类carbohydrates的筛选 条件为0.6<O/C<1.0、 1.5<H/C<2.2, 不饱和烃类 unsaturated  hydrocarbons的筛选条件为O/C<0.1、 0.7<H/C<1.5, 木质素类lignin的筛选 条件为0.1<O/C<0.6、 0.6<H/C<1.7、 修正的芳香指数AImod<0.67, 单宁酸类tannins的筛选 条件为0.6<O/C<1.0、 0.5<H/C<1.5、 修正的芳香指数AImod<0.67, 稠环芳烃类condensed   aromatics的筛 选条件为O/ C<1.0、 0.3 <H/C<0.7、 修正的芳香指数AImod≥0.67; 所述7组分子类别的有机氮分子参数包括: 各组有机氮分子的质荷比m/zi、 等效双键数 DBEi、 碳的标称氧化态NOSCi各自的平均值; 各组分子数目的占比Numi; 各组有机氮分子的 分子参数的强度加权平均值, 即分子相应的相对峰强度分别与 m/zi、 DBEi、 NOSCi乘积的总 和; 其中i表示分子类别。权 利 要 求 书 1/3 页 2 CN 114295707 A 25.根据权利要求3所述的一种基于机器学习的污水有机氮生物有效性评价方法, 其特 征在于, 步骤(a)中, 对所述特 征值进行 数据标准 化处理, 数据标准 化的计算公式为: 其中, z为标准化后的特征值, x为原始特征值, u为特征值的平均值, s为特征值的标准 偏差。 6.根据权利要求3所述的一种基于机器学习的污水有机氮生物有效性评价方法, 其特 征在于, 步骤(b)中, 为了寻找最佳特征数量, 使用具有交叉验证的递归特征消除算法, 选择 NGBoost作为学习估计器, 以决定系数R2为交叉验证得分依据, 每次从当前特征集中去除1 个特征数, 在更新的特征集中重复递归特征消除过程, 直至特征消除会导致模型 的交叉验 证得分下降为止, 通过 特征排名确定需要删除的特 征。 7.根据权利要求3所述的一种基于机器学习的污水有机氮生物有效性评价方法, 其特 征在于, 步骤(c)中, 按照9: 1的比例将数据集随机划分为训练&验证集和测试集; 从给定的 训练集中有放回地随机选取m个样本构建采样集, 以决策树为基学习器, 在基决策树的每个 节点的属性集合中随机选择k个属性, 再从k个属性中选择最优属性用于划分; 采样T次构建 含m个训练样本的采样集, 基于每个采样集训练出1棵决策树; 基于T棵决策树组成随机森林 模型, 随机森林模型最终的预测值可表示 为: 其中, 为随机森林模型最终的预测值, T为决策树的数量, T(x)为每个决策树的输 出值。 8.根据权利要求3所述的一种基于机器学习的污水有机氮生物有效性评价方法, 其特 征在于, 步骤(c)中, 优化模 型超参数并使用5折交叉验证评估模型性能; 需要优化的随机森 林超参数及其范围为: 基决策树的数量为100 ‑1000, 决策树的最大深度为5 ‑55, 不纯度减少 阈值为0.0‑0.1。 9.根据权利要求3所述的一种基于机器学习的污水有机氮生物有效性评价方法, 其特 征在于, 步骤(d)中, 选取最佳的模 型超参数, 训练后得到预测模型, 并在所述测试集上最 终 评估预测模型的性能; 选择决定系数R2和均方根 误差RMSE作为评价指标, R2的计算公式为: RMSE的计算公式为: 其中, yi为真实值, 为预测值, n为污水水样总数, i表示分子类别。 10.一种如权利要求1~9任意一项所述的一种基于机器学习的污水有机氮生物有 效性 评价方法, 其特征在于, 所述步骤(3)和步骤(4)中, 应用所述预测模 型来评价污水有机氮 生权 利 要 求 书 2/3 页 3 CN 114295707 A 3

.PDF文档 专利 一种基于机器学习的污水有机氮生物有效性评价方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习的污水有机氮生物有效性评价方法 第 1 页 专利 一种基于机器学习的污水有机氮生物有效性评价方法 第 2 页 专利 一种基于机器学习的污水有机氮生物有效性评价方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:14:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。