值此国际妇女节之际,祝愿所有女性朋友们节日快乐!在这个特别的日子里,我们不仅庆祝女性的成就与力量,更聚焦于那些在AI行业中熠熠发光的女性们。她们以智慧与勇气,不断突破界限,推动科技的边界向前延伸。
《中国女性》(海外版)的报道《新职业焕发“她力量”》,正是对这些女性的致敬,其中,采访了来自考拉悠然的女性生成式人工智能系统应用员。下面请阅读详细报道,让我们认识考拉悠然的这位“她力量”。
去年,人力资源和社会保障部发布了19个新职业,其中半数以上与新质生产力密切相关,“数”“智”特色鲜明。生成式人工智能系统应用员、云网智能运维员、智能网联汽车测试员等职业的从业者,通过专业的技能和服务,在推动技术创新、提升产业效能方面做出了社会贡献。这些岗位中的“她们”也以卓越的能力、饱满的热情,展现出独特的风采。
训练AI就像教“孩子”
生成式人工智能系统应用员是运用生成式人工智能技术及工具,从事生成式人工智能系统设计、调用、训练、优化、维护管理等工作的人员。作为一名生成式人工智能系统应用员,付霞在这一领域工作了6年。她毕业于计算机专业,目前参与的项目主要聚焦于多模态大模型在各领域的应用,主要工作包括训练数据的构建、模型的训练与优化以及应用。
大模型是生成式人工智能的核心,它是一种聪明的计算机程序,能理解和生成人类日常使用的话语,并按照指定需求完成复杂任务。而训练大模型,让它从无知变得聪明,则是一项极具挑战性与创造性的工作。“就像精心培育一个聪明却偶尔‘犯错’的孩子,期望它能茁壮成长。”
天真的孩子在成长过程中会接触到各种信息,比如书本上的文字、老师的讲解、周围环境的声音等。对于大模型来说,就需要应用员不断向它输入海量的数据和知识。付霞通常需要收集各种领域相关的原始数据,包括文本、图片及视频,并对数据进行清洗,去除噪声数据。
“数据是模型训练的基石,其质量直接关乎模型的最终性能。”而“噪声数据”就像生活中影响孩子成长的不良因素。“它会干扰模型训练,导致最后训练好的模型不如人意。”拿图文数据来说,就有图像模糊、图文不匹配,文本重复或文本质量不高等多种情况。除此之外,数据分布不均衡问题也是一个难题,比如某一类别的数据量过多而某些类特别少,也会影响模型的性能和准确性。
为解决这些问题,付霞下了苦功夫,她用算法和人工结合的方式严格筛选数据,并让模型均衡学习不同类别的数据。在构建智慧城市大模型时,她花了不少时间在数据收集、清洗上。她深知,人工智能是一个充满挑战的领域,而她乐于面对这些困难。“每一次攻克难题的过程,都是能力提升的积累,而每一次突破,都会让你在AI的道路上走得更远、更稳。”
人类学习了新知识后,需要通过练习来巩固深化,大模型也是如此。在数据输入后,应用员会随时“批改作业”,调整参数以不断优化性能,提升模型对领域知识的理解和生成能力。模型训练好后,她会将模型部署到具体的平台中,后续由开发人员将模型能力转化为具体的应用功能。“整个流程是一个循环优化的过程。”付霞表示,在应用上线后,用户会不断反馈问题,应用员也会及时优化数据、调整模型,不断提升产品质量。
和 AI“共事”,几乎每天都有新“惊喜”。付霞说,由于系统的复杂性和不确定性,它在学习过程中偶尔会出现一些难以预测的输出结果。有趣的是,模型确实像个孩子,当给予它一些正向鼓励、奖励等情感提示,往往能收获更好的回答。“你直接告诉它完成某项任务时,它可能表现得中规中矩。但当你添上诸如‘这项任务对我来说极其关键,我深信你定能出色完成’这样的情感话语,奇妙的事情便发生了。它仿佛瞬间被注入了强大的动力,工作成果也得到显著提升。”
付霞表示,这个工作不仅要埋头苦干,还要善于沟通。她所在的考拉悠然公司是多模态大模型行业应用解决方案提供商,客户覆盖高端屏显、半导体、烟草、轨道交通、生态环保、城市治理等多种行业。在面对不同行业对AI大模型的不同需求时,她首先会和行业人员深入交流,了解他们的业务流程、核心目标以及遇到的难点,然后把这些需求转化为清晰的技术指标,让模型的优化方向更加明确。这个过程需要良好的亲和力和共情力,令双方能够快速拉进距离,让信息流通更顺畅,协作效率更高。
在付霞的公司,还有许多训练AI的女“教师”。“她们在各自的岗位上释放着强劲的能量。”付霞想对想要从事以及刚刚进入这个行业的姐妹们说,在打牢基础的前提下不断精进,要敢于实践并积累经验,也要保持韧性勇于突破,同时发挥自身优势,创造更大的价值。 “希望你能保持热爱,坚定前行,在AI的世界里找到属于自己的位置!