外国的网站是什么网站,如何推广一个app,wordpress4.1中文版,小红书网络营销策划方案最近#xff0c;一些计算机科学家创建了一种更灵活、更灵巧的机器学习模型。诀窍在于#xff1a;它必须定期忘记它所知道的信息。虽然这种新方法不会取代支撑最大应用程序的庞大模型#xff0c;但它能揭示这些程序如何理解语言的更多信息。 
#xff08;PS#xff1a;如果…最近一些计算机科学家创建了一种更灵活、更灵巧的机器学习模型。诀窍在于它必须定期忘记它所知道的信息。虽然这种新方法不会取代支撑最大应用程序的庞大模型但它能揭示这些程序如何理解语言的更多信息。 
PS如果你还没体验过ChatGPT Plus或者不会升级可以点击参考 
计算机科学家创建了一种更灵活、更灵巧的机器学习模型。诀窍在于它必须定期忘记它所知道的信息。虽然这种新方法不会取代支撑最大应用程序的庞大模型但它能揭示这些程序如何理解语言的更多信息。 
韩国基础科学研究所的人工智能工程师Jea Kwon表示新研究标志着该领域的“一个重大进步”。 
如今使用的AI语言引擎大多由人工神经网络驱动。网络中的每个“神经元”都是一个数学函数它从其他神经元接收信号进行一些计算然后通过多层神经元传递信号。最初信息流动或多或少是随机的但通过训练随着网络适应训练数据神经元之间的信息流动得到改善。如果一个AI研究员想要创建一个双语模型例如她会用两种语言的大量文本来训练模型这将调整神经元之间的连接以某种方式将一种语言中的文本与另一种语言中的等效词汇关联起来。 
但这个训练过程需要大量的计算能力。如果模型工作得不是很好或者如果用户的需求后来发生变化很难对其进行调整。“假设你有一个包含100种语言的模型但想象你想要的一种语言没有被覆盖”新研究的共同作者兼AI创业公司Reka的创始人Mikel Artetxe说。“你可以从头开始但这不是理想的选择。” 
Artetxe和他的同事试图绕过这些限制。几年前Artetxe和其他人训练了一个单语言的神经网络然后抹去了它对单词构建块称为令牌的了解。这些存储在神经网络的第一层即嵌入层中。他们保留了模型的所有其他层。在擦除了第一种语言的令牌后他们重新训练模型以第二种语言这使得嵌入层填充了该语言的新令牌。 
尽管模型包含了不匹配的信息重新训练还是成功了模型能够学习并处理新语言。研究人员推测虽然嵌入层存储了与语言中使用的单词具体相关的信息但网络更深层次存储了有关人类语言背后概念的更抽象信息这有助于模型学习第二种语言。 
“我们生活在同一个世界。我们用不同的词汇概念化相同的事物”最近论文的主要作者Yihong Chen说。“这就是为什么模型中有这种相同的高层次推理。苹果是某种甜美多汁的东西而不仅仅是一个词。” 
通过这种遗忘的方法是一个有效的方式来向已经训练好的模型添加新语言但重新训练仍然要求很高——它需要大量的语言数据和处理能力。Chen建议进行一个调整不是训练、擦除嵌入层然后重新训练而应该在最初的训练轮次期间定期重置嵌入层。“通过这样做整个模型变得习惯于重置”Artetxe说。“这意味着当你想将模型扩展到另一种语言时会更容易因为这就是你一直在做的。” 
研究人员采用了一种常用的语言模型叫做Roberta使用他们的周期性遗忘技术对其进行训练并将其性能与使用标准、非遗忘方法训练的相同模型进行了比较。遗忘模型的表现略低于常规模型在一种常用的语言准确性度量上前者得分为85.1后者为86.1。然后他们使用只有500万令牌的更小数据集而不是他们在第一次训练期间使用的700亿重新训练模型。标准模型的准确性平均降至53.3但遗忘模型仅降至62.7。 
这种方法类似于我们自己的大脑如何工作。“一般来说人类记忆不擅长准确存储大量详细信息。相反人类倾向于记住我们经验的要点抽象和推断”旧金山大学的神经科学家Benjamin Levy说。“使AI具有更像人类的过程如适应性遗忘是一种让它们表现得更灵活的方式。” 
除了它可能说明理解工作的方式之外Artetxe希望更灵活的遗忘语言模型也能帮助将最新的AI突破带给更多语言。尽管AI模型擅长处理有大量训练材料的西班牙语和英语但对他的母语巴斯克语这是西班牙东北部的地方语言就不那么擅长了。“大型科技公司的大多数模型做得不好”他说。“将现有模型适应巴斯克语是一种方式。” 
Chen也期待一个更多AI花朵绽放的世界。“我在想一个世界不需要一个大型语言模型。我们有这么多”她说。“如果有一个制造语言模型的工厂你需要这种技术。它有一个基础模型可以快速适应新领域。”