TAG:AI训练
防止AI训练滥用:多家美国媒体封禁互联网档案馆“时光机”爬虫访问
本文报道了《纽约时报》、Reddit等多家主流媒体为防止AI公司抓取版权内容,纷纷封禁互联网档案馆“时光机”爬虫的现状。文章探讨了媒体在版权保护与利用工具进行深度报道之间的矛盾,以及百余名记者对这一趋势可能导致数字历史失落、削弱舆论监督能力的担忧,揭示了AI浪潮下版权与信息保存的博弈。
时薪15美元新型零工:50多国工人参与机器人动作视频采集
本文探讨了人形机器人训练催生的新型零工经济。全球多国工人以每小时15美元的报酬录制家务视频,为AI提供真实动作数据。文章分析了该模式如何快速积累海量训练素材,同时深入探讨了劳动者报酬、隐私泄露及数据权属不明等潜在风险,揭示了机器人产业化背后的数据供应链现状与未来趋势。
苹果欧盟新规:禁止第三方配件通过通知训练AI
苹果在欧盟《数字市场法案》要求下开放iOS通知接入,但新增严格隐私条款,禁止第三方配件利用通知数据训练AI或用于广告投放。新规要求数据本地解密,确保用户隐私安全,同时赋予用户完全控制权。文章探讨了苹果在合规与隐私保护之间的平衡策略。
外卖员兼职AI数据采集 DoorDash动员800万骑手助力机器人研发
DoorDash 推出新应用 Tasks,动员 800 万外卖骑手在送餐之余采集真实世界数据,为 AI 模型提供训练素材。这些数据将用于优化配送机器人 Dot 的视觉识别与路径规划能力,推动自动化配送发展。文章探讨了外卖员在 AI 时代的新角色以及人机协同的未来趋势。
GitHub政策突变 私有仓库代码将用于AI训练
GitHub宣布将从2026年4月起使用用户代码交互数据训练AI模型,包括私有仓库内容,引发开发者强烈抗议。尽管企业用户可豁免,个人用户需手动关闭数据共享选项以保护隐私。本文解析政策变动影响及自保方法。
GitHub将用Copilot用户数据训练AI 4月24日起默认执行
GitHub宣布从2026年4月24日起将默认使用Copilot用户交互数据训练AI模型,涵盖代码片段、聊天记录等信息。此举旨在提升模型准确性,但采用'预设加入'机制引发隐私争议。文章探讨了数据确权问题及行业趋势变化。
M4算力机密遭破解 Claude立功 Mac mini变身训练怪兽
工程师Manjeet Singh联手Claude AI成功破解苹果M4芯片神经引擎算力限制,证明Mac mini可高效训练Transformer模型,峰值能效比远超专业显卡。这一突破降低了AI训练门槛,让个人设备也能成为低成本迭代模型的超级电脑。
韩国三大电视台起诉OpenAI版权纠纷
韩国三大电视台KBS、MBC和SBS因版权问题联合起诉OpenAI,指控其在未经授权的情况下使用新闻内容训练ChatGPT模型。诉讼要求赔偿并禁止继续使用相关材料,凸显了AI发展中知识产权保护的重要争议。
英伟达被曝接触盗版数据库 疑为AI训练搜集数据
英伟达被指控在集体诉讼中试图从盗版电子书资源库安娜档案馆获取500TB数据用于AI模型训练,以追赶竞争对手。作者们认为此举侵犯版权,揭露了科技巨头在竞争压力下的极端手段。
Adobe面临集体诉讼,被指控用盗版书籍训练AI模型
Adobe因涉嫌使用盗版书籍数据集训练其AI模型SlimLM而面临集体诉讼,原告指控其非法使用受版权保护的书籍内容。此案凸显了AI训练数据合规性的法律风险,类似纠纷也涉及Apple、Salesforce等科技公司,可能对行业发展产生重要影响。
付费爬取成AI时代内容创作者救星还是垄断隐患
本文探讨了Creative Commons对“付费爬取”模式的支持,分析了在AI时代内容创作者面临流量流失危机时,这一模式如何可能成为中小型网站的收入来源,同时警示其可能加剧网络垄断的风险。文章还介绍了相关技术标准和实施原则,旨在平衡创作激励与信息开放。
OpenAI推出AI忏悔框架 训练模型承认不当行为提升诚实度
OpenAI推出名为“忏悔”的创新AI训练框架,旨在引导大型语言模型坦诚承认不当行为或问题决策。该机制通过二次回应评估模型诚实度,鼓励其说明行为过程,即使涉及作弊或违反指令。此举旨在提升AI透明度与可靠性,相关技术文档已公开。
宇树科技重磅发布G1-D:集采集、训练、部署于一身的人形机器人工作站
宇树科技发布G1-D人形机器人工作站,这是一套集数据采集、处理、标注、模型训练与部署于一体的全栈解决方案。以轮式人形机器人G1-D为核心,配备多高清相机,支持0-2米垂直作业空间和最高1.5m/s移动速度,全面兼容主流开源框架,大幅提升人形机器人AI模型研发效率,推动行业向'硬件+数据+AI'生态平台转型。