起源:国产无人机蜂群进攻画面披露作者:
xAI想用员工报税单训练大模型,开价420美元,至今没付
5月19日新闻,据彭博社报路,xAI今年3月曾在内部沟通中向员工开出420美元报答,但愿网络员工的报税文件,援手Grok改善税务有关能力。报路还称,截至报路颁布时,这笔奖金尚未兑现。
这件事最刺眼的处所是AI公司起头把数据需要推向了极度个人的区域。
报税文件不是通常网页文本。它可能蕴含收入、家庭成员、资产、投资、抵扣、雇佣关系、身份信息等细节。哪怕公司承诺会做匿名化处置,员工也很难真正判断:这些文件会被谁看到,会保留多久,会不会被用于税务以表的用处,会不会在未来某个模型能力里留下痕迹。
但从AI公司的角度看,这类数据的确很诱人。
大模型要真正进入工作流,不能只会总结网页、回覆学问题。它还要读懂现实世界里那些体式混乱、字段复杂、高低文敏感的文件:税表、合同、发票、病历、财政报表、申请资料、企业内部文档。越真实、越凌乱、越靠近现实业务的数据,越可能援手模型在具体场景中变得“好用”。
问题是,真实数据往往也最敏感。
从前几年,大模型行业重要靠公开互联网文本训练。后来公开网页不够用了,公司起头签内容授权、买数据集、找合作方,甚至把眼光投向内部文件和用户行为数据。xAI这次被曝出的做法,把这种趋向变得更直白:模型能力的提升,在不休向幼我隐衷和组织天堑要原料。
这也给通常用户提了个醒。未来好多AI产品会宣称自己能处置“真实工作”:助你报税、写合同、整顿账单、分析病历、治理家庭财政。能力越强,背后必要的数据越可能切近幼我生涯的底层信息。用户真正要问的,不只是“它准禁绝”,还蕴含“它拿什么练出来的”“我的资料会不会持续被拿去练”。
对xAI来说,这件事还有一层治理问题。若是员工是被公司激励交出报税文件,那么这到底是自愿提供,还是隐性压力?若是承诺了报答却没有兑现,那么公司对数据贡献者的根基左券是否靠得住?这些问题城市影响表界对一家AI公司的信赖。
AI行业此刻常说“数据是燃料”。但这句话说到最后,真正难的不是找到更多燃料,而是划清天堑:哪些数据能够用,谁有权决定,贡献者能得到什么,风险由谁承担。(易句)
(本文由AI翻译,网易编纂掌管校对)
@陈柏虹:维尼斯人网址,男子在飞机上拍到3个不明发光物@陈敏松:“八千里来客”走优势雪高原
@李彦文:孙俪:我们家的狗装死把邓超吓晕了