网易易盾正式发布AIGC内容风控解决方案

2023-05-12 18:40:54     来源:

2023年,注定是AIGC发展的关键一年,它标志着人工智能逐渐从学术研究走向产业化,并与商业融合形成互为支点的发展格局,进入产业商用期。

技术无罪,商用却有风险。不少AIGC平台在上线后仅仅几天时间内就频频遭遇翻车。究其背后,是国家对人工智能技术发展的引导和规范体现。

4月11日,国家互联网信息办公室公布了《生成式人工智能服务管理办法(征求意见稿)》(以下简称办法)。这代表着,国内即将迎来首个AIGC新规。其中,在《办法》的21条政策中释放出了一条的关键信号,国家支持AIGC的健康发展和商业应用,前提必须是合法合规,且有13条规定都明确指向了”AIGC 提供商“。

在此背景下,网易易盾从AIGC提供商运营角度出发,结合国家政策与丰富的行业经验,提供覆盖事前—平台运营前置的风险、事中—平台内容合规风险、事后—投诉与违规处理风险的全流程解决方案。

01 事前—平台运营前置风险

1. AI算法治理

从算法治理角度出发,AIGC提供商有责任在平台投入使用前对可能产生的问题进行预估、判定并制定相对应的措施,对算法使用过程中的安全监测、算法评估以及算法推荐对个人信息主体带来的影响等内容进行规范。

同时,《办法》中明确规定,AIGC服务及生成内容必须“符合社会主义的价值观”,防止出现民族、信仰等歧视、尊重商业道德、尊重他人合法权益、“防止生成虚假信息”等意识形态与价值倾向问题。

因此,人工智能服务提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责,提供预训练和优化训练数据的来源等描述,人工标注规则,人工标注数据的规模和类型等必要信息。

由于大模型依赖训练数据,在数据输入层面可能会存在恶意操纵的风险,包括有毒输入、偏见、意识形态攻击、舆论操控、虚假信息、隐私泄露等。因此,模型训练语料库基本决定AIGC生成内容的价值观。数据标注是AI数据训练流程中的“关键一步”,纯净、贴合AI应用场景的数据源可解决数据训练中90%的问题。

对此,易盾可对模型训练语料库提供人工标注服务。易盾拥有头部企业海量数据的标注经验,可快速、准确地提供专业人工标注服务,涵盖文字、图片、音视频及特殊场景和人物,同时对激增数据量可建立应急响应流程,为模型训练提供贴合使用场景的高质量数据。

2. 安全管理制度

用户认证管理

AIGC提供商需提供涵盖用户认证、重点群体保护和算法透明服务。按照《中华人民共和国网络安全法》规定,提供生成式人工智能服务应当要求用户提供真实身份信息。

在强化信息认证能力方面,易盾提供多种身份验证方式,灵活组合;创新算法能力,有效应对AI技术合成人脸、3D面具等假体攻击;同时在登录注册或使用AIGC服务前集成调用信息认证能力,减少恶意注册的安全风险。

技术安全评估

《互联网信息服务深度合成管理规定》第二十条 深度合成服务提供者开发上线具有舆论属性或者社会动员能力的新产品、新应用、新功能的,应当按照国家有关规定开展安全评估。

易盾可协助AIGC提供商建立健全AIGC相关的安全管理制度及业务技术资料的支持,协助企业进行现场迎检,包括文件准备,人员访谈,技术检测,问题记录,问题整改。

服务算法备案

AIGC提供商应按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。易盾可提供算法备案咨询全流程服务,协助企业完成备案信息填报。

02 事中—平台内容合规风险

1.AI实时交互内容审核

为了遵守法律法规和体现社会主义核心价值观,对于实时交互内容审核和利用AI生成内容,需要加强敏感内容审核,例如涉政、涉黄、涉暴等内容,以确保信息的安全和合规性。然而,特殊的prompt指令可能会绕过AI自身的安全机制,增加审核的难度和复杂度。

为了解决这个问题,网易易盾提供了针对AIGC+UGC场景下的机器审核能力,可根据业务场景配置审核的松紧程度,选择适当的审核策略来满足不同场景的合规要求。

如在语聊对话场景中,存在真实用户和智能机器人两种角色,这要求机审能够快速识别不良信息,确保人机聊天的实时性。易盾的机审技术可根据业务场景不同,在UGC内容和AIGC生成内容配置不同的松紧度审核策略,兼顾用户使用体验和内容安全合规性。

2.上下文关联分析+人审

AI生成内容由于算法机制原因,存在用户利用敏感话题、循序诱导提问等方式输出不当AIGC内容的情况,特别是包含多条上下文内容,单词条阅读没有问题,关联上下文多词条阅读会有违法违规的信息,违法人员常借用藏头诗、情景剧本、歌词等形式生成长文本(长图)分享,来躲避平台的审查机制。

网易易盾自主研发AI语义分析技术,提供AI机审上下文关联能力;并结合人工审核,对AI生成的长图分享、记忆薄等内容进行关联检测分析。另外易盾自主研发的人工审核系统能还原真实对话场景,区分AI机器人与真实用户的会话,大幅提高审核精准度及审核效率,有效识别和防范用户利用敏感话题、循序诱导提问等方式输出不当信息。

3.AI伪造内容识别

由于Deepfake等技术的滥用可能会导致严重的诈骗和欺诈行为,因此需要采取措施来打击AI滥用行为。易盾基于深度伪造识别算法,打造了动态防御机制,可以识别由AI生成的视频或音频。这种技术可以识别Deepfake等虚假信息,从而保护社交网络和其他在线平台的用户免受欺诈和诈骗的侵害。

根据《互联网信息服务深度合成管理规定》对于由AI生成的图片、视频等内容需要进行标识,以确保信息的真实性和准确性,避免虚假信息的传播造成不良影响。网易易盾建议平台提供深度合成内容的显著标识功能,用户在创作AIGC内容的时候可以自行完成显著标识的标记操作。标识AI生成的内容,以及采取防御措施来打击AI滥用行为,是确保互联网信息安全的重要措施。

03 事后—投诉与违规处理风险

网易易盾可协助用户建立投诉接管机制,建议平台提供用户投诉举报渠道,鼓励用户参与平台内容治理,易盾智能审核系统也将提供用户投诉举报审核机制,打通机器审核和平台业务接口,及时对用户投诉举报内容进行审核处置。

AIGC大大降低了创作门槛,为信息生产和传播带来了新的变革和机遇。对于AIGC提供商而言,与机遇并存更多的风险与挑战。

新技术与新行业的发展往往与政策合规相辅相成,如何在合规的基础上稳步实现应用落地、推进产品迭代,是AIGC提供商入局后绕不开的一点。作为新一代数字内容风控服务商,网易易盾将帮助AIGC平台合规发展,为新行业的可持续发展持续做贡献。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

百亿补贴来袭,赶快邀请好友瓜分百亿补贴
开放多元,共绘衢州高品质城市建设未来:衢州市地标建筑概念性方案国际竞赛评审结果公布
【金十访谈间CPI专场】巨象金业-金缠老师独家连线话金市
女性经期护理赛道黑马频现?据说加盟这家品牌成女性热选
TT语音参与制定《网络表演(直播与短视频)行业‘青少年模式’自律规范》
蕉下轻量化户外 治愈“ 旅游特种兵”焦虑内心
世荣万达广场项目国际舞台首次精彩亮相,荣膺“地产界奥斯卡” 铂金奖!
学魁图书全国巡讲首站落地吉林,学魁榜创始人邱崇亲临现场!
中华财险四川分公司的风险减量 实践“样板”
东航新媒体矩阵:日均服务沟通300万人次,向2300万粉丝展民航央企形象
毛毛Ai陪练打造“一站式服务”,让练琴更加轻松高效
助力“数字中国”建设,毛毛Ai陪练共赴数字之约
助力“数字中国”建设,毛毛Ai陪练共赴数字之约
让练琴更便捷,毛毛Ai陪练“陪伴式”服务赋能千万琴童
让练琴更便捷,毛毛Ai陪练“陪伴式”服务赋能千万琴童
产品研发再升级,帅领第八代集成热水器重磅发布!
小众乳品市场火爆,白云山拜迪推出有机牦牛奶粉
人工智能板块如何?股北洪帮主带来专业讲解
开店96天成交额破亿!“华流”成顶流
弘扬红十字精神,盈康生命旗下医院手术救助15名先心病儿童
洞察力、场景力、组织力 黑蚁资本何愚总结新品牌崛起三大能力
CBiBank富港银行与DBS星展银行合作再升级,上线香港同名贸易收款账户
第二期入孵企业正式亮相,迸发中国基因组学蓬勃活力
与科技之美邂逅!Ulike上海CBE美博会现场火爆
斯诺克(Snorkel)人工智能数据标签平台——提高效率的终极数据标签平台
JUST.FOTO大头贴品牌活动集锦
众能联合数字化平台正式发布!为工程机械行业注入全新活力
留香又护肤,家清洗护界新贵“芬兔”亮相2023CBE美博会
空气净化器除细菌病毒真的有用吗?认准悦呼吸空气净化器不踩坑
华纬科技:技术产品优势彰显行业地位