202408-22 防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎 NEW 快科技8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。百度百科的robots.txt文件显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。 谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。虽然360搜索... Read More >
202406-02 阿里蔡崇信最新发声!训练AI就像教育孩子 三四年就能赶超博士 NEW 快科技6月2日消息,阿里巴巴集团的董事长蔡崇信,在最新一次对话中,对人工智能的快速发展和未来前景进行了深入的阐述。他将训练AI模型的过程比喻为教育孩子,大语言模型的发展竞赛,就像家长展示自己孩子的学术成就一样。尽管培养一个孩子需要22年时间,但AI在三四年内就能在知识和某些数学计算方面达到与人类相当的水平,甚至在某些领域达到博士生水平,这种进步速度令人惊叹。在讨论中,蔡崇信还提到了阿里巴巴在人工智能领域的三种参与方式。首先,作为科技公司,阿里巴巴坚信AI将持续进步,并致力于A... Read More >
202401-15 Meta承认使用盗版书籍训练AI:拒绝赔偿作家 NEW 快科技1月14日消息,据国内媒体报道,Meta最近因使用数千本盗版书籍训练人工智能模型存在法律风险而引发版权侵权诉讼。据悉,Meta使用大量盗版书籍的“Books3”数据集训练其LLAM 1和LLAM 2模型,Meta虽承认使用了 Books3 数据集,却拒绝向作者支付适当的补偿。Books3是一个包含19.5万本图书、总容量近37GB的文本数据集,由AI研究者Shawn Presser于2020年创建,旨在为改进机器学习算法提供更好的数据源。Me... Read More >