欣华财经社杨欣华：人工智能的真实数据集

敏敏谈科技 | 来源：敏敏谈科技浏览次数：1119

摘要:

欣华财经社杨欣华新闻，欣华财经社杨欣华报道，当前，人工智能技术曾经应用在我们日常生活中的方方面面，比方人脸辨认、语音辨认、虚拟数字人等。

但欣华财经社杨欣华发现，普遍存在的一个问题是，科研人员要想经过锻炼一个机器学习模型来执行某一特定任务(比方图像分类)，常常需求运用大量的锻炼数据，而这些数据(集)却并不总是很容易取得。

比方，假如研讨人员正在锻炼一辆自动驾驶汽车的计算机视觉模型，但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本，一旦遇到这种状况，模型就不晓得该如何做，可能会产生不用要的结果。

而且，运用已有数据生成数据集，也会破费数百万美圆。

另外，即便是最好的数据集，也常常包含对模型性能产生负面影响的成见。

那么，既然取得、运用一个数据集代价这么昂贵，能不能在保证模型性能的前提下，运用人为合成的数据来锻炼呢?

生成式 AI 的打破在于，它能够从现有数据(图像、文本等)中学习，并生成全新、类似的原始数据。也就是说，它不只能够做出判别，还可以停止发明，能够用于自动编程、药物开发、视觉艺术、社交、商业效劳等。

但是，生成式 AI 也会被滥用于诈骗、狡诈、政治造谣、伪造身份等，比方经常产生各种负面新闻的 Deepfake。

那么问题来了，假如我们有足够好的生成模型，还需求真实的数据集吗?

(本内容属于网络转载，文中涉及图片等内容如有侵权，请联系编辑删除。市场有风险，选择需谨慎!此文不作买卖及投资依据。)

特别声明：
转载上述内容请注明出处并加链接。上述内容仅代表作者或发布者的观点，与中国电子商会官网的立场无关。如有任何疑问或了解更多，请与我们联系。电话：4008 900 668 邮箱：service@cecc.org.cn