人工智能作为推动当下科技创新和生产力整体提升的重要战略性技术,受到世界范围内的普遍关注,尤其是随着云计算和大数据的迅速兴起。人工智能迎来了新的发展契机,而算法则是在幕後推动人工智能实现的“核心引擎”,过去六十多年来以大脑模拟、神经处理再以神经网络为代表的机器学习,每一次突破都推动着人工智能技术的迭代演进。
当前,人工智能已经在物联网、智能家居、机器人等多领域中落地应用,与实体经济深度融合,迎来了发展的大好时期。丰富的应用场景也对算法提出了新需求。自动机器学习、联邦迁移学习、可解释深度学习等,一批算法促进新产品的发展,加快社会向智能化不断跃升。
值此之际,8月30日,由世界人工智能大会组委会主办,上海交通大学、第四范式承办的“2019世界人工智能大会国际前沿算法峰会”在上海世博展览馆举行,作为此次世界人工智能大会十大主题峰会之一,国际算法峰会聚集超过1000位人工智能研究者和产业界实践者,共同向底层技术发问,求解能够推动产业变革的未来算法。
会上,美国卡内基梅隆大学CMU计算机学院院长、机器学习教父、乂学教育-松鼠AI首席AI科学家Tom Mitchell教授以“Learning from Unlabeled Data”为题,做了精彩的主题报告。
机器学习教父、乂学教育-松鼠AI首席人工智能科学家Tom Mitchell发表演讲
Tom Mitchell长期从事机器学习、认知神经学科等研究,曾编写Machine Learning (《机器学习》)一书,这是人工智能领域最经典的教材之一,他也因此被称为机器学习之父。近年,Tom Mitchell开始深度关注AI对教育的应用,2018年11月起任中国AI教育独角兽公司乂学教育-松鼠AI首席AI科学家,作为松鼠AI人工智能领域第一负责人,Mitchell 带领团队十多位AI科学家和几百位AI应用工程师以及技术团队,进行人工智能在智适应教育领域的基础研究和相关产品的研发应用等。
在此次大会上,Tom Mitchell教授指出,在我们的世界,非标记的数据要比已标记的数据庞大,机器学习非常重要的一点就是学习如何将非标记数据进行分类,来改善机器学习的能力。实现这一目标就要求学习程序必须要具备某种架构,能弄清楚不同的函数及不同的限制关系。如果能对海量未经标注的数据进行分类,不管对机器学习还是自我反思预测错误都将非常有意义。
当前,以机器学习为核心的人工智能技术正在逐步推动各行各业产业升级,机器学习作为AI的一个重要分支,为人工智能提供了新的发展机遇。尽管如此、和人类学习的方式相比,机器学习的方法依然非常狭窄。
Tom Mitchell教授着重介绍了一种被称之为永无止境的语言学习项目模型——NELL(Never-Ending Language Learner)框架。NELL像人类一样,学习很多类型的知识,已经具有自我监督的经验,能利用学到的知识改善后续学习,并通过充分的自我反思来避免学习中的平台期。
“NELL理念非常简单,相当于有一位程序员每天24小时不间断工作,每天程序都会有两个任务:第一是阅读提取来自网络的更多信息,并删除旧的错误信息,以填充不断增长的知识库,其中包含对每个信息的信心和来源,比如说水是一种饮料,或者比尔盖茨创立的微软;第二,自我进化,学习如何比昨天做得更好,如果任务跟昨天一样,可以简单挖掘更多准确的数据。”
NELL在初始阶段会有少量分类,如饮料、人、植物、城市等是本体,同时加入关系,比如说人创建了公司,或者饮料是食物产生。除此之外还会输入样本,大部分情况下输入网端的是末标注的数据,未标注数据的信息分类问题也是目前大部分机器学习过程中的问题所在。
Tom Mitchell教授称,其2010年开始NELL项目,每天24小时运作,直到去年九月,其拥有1.2亿三元数据知识库,并且每一年的逻辑推理能力、学习能力都在提升。而且基于十几个没有标注的原始样本数据,NELL可以扩展已知的关系本体,并能参加一些新型的关系。通过不断的累计,目前每个知识库中拥有数亿个三元数据库。比如说枫叶国是加拿大,多伦多是属于加拿大的一座城市等,像这样的例子均是程序从网络当中学习攫取的数据。
在教育领域也是如此,现在已经有几百万人在使用人工智能教育系统,积累了许多数据,机器学习可以利用这些数据进一步发展。
“如果机器学习应用在智适应教育当中,应该在每一领域都具备一种功能,去了解学生现在的学习状态,机器学习就是能够发现这个功能是什么,我们可以用机器学习来不断的修改它,这是机器学习在其中的核心作用。”Mitchell谈到。
新的机器学习和人工智能的工具出现后,或许一个机器就可以收集高达十万名学生的答卷,就可以去分析这些答卷当中学生出错的规律,在过去,一位老师穷其一生都不可能接触多达这么多学生。
Tom Mitchell认为,目前正在进入AI对如何教育孩子产生重大影响的十年。
因为AI的进步,研究人员和公司正在不断更迭新一代系统。例如松鼠AI智适应学习系统运用进化算法、深度神经网络、贝叶斯网络、迁移学习、图论、及其他机器学习等多种AI技术,通过对学生学习过程中多维数据的全方位评估,给与最高效的学习内容、学习路径、学习节奏的把握以及深度的效果评估,最大化学习效率的提升,进而实现在模拟优秀特级教师的基础之上,达到超越真人教学的目的。
回到NELL,其可以用扩展kb、OntExt考虑NELL当前本体中的每对类别,在三个步骤中搜索类别对成员之间经常讨论的关系的证据、提取两个类别的已知实例的句子、从提取的句子中通过上下文共生矩阵构建上下文,然后将相关的上下文聚类在一起。 每个集群对应于两个输入类别实例之间可能的新关系。
如果尝试去训练这两个函数,即通常所说的协同训练,只要这些函数有足量多的标注数据,误差就会接近于零。并且最后能使用这些未标注的数据学习这些函数。
比如,松鼠AI系统成果之中的“非关联性知识点关联概率”及“用错因重构知识地图”。
在将学科中的知识点进行超纳米级拆分的基础上,非关联性知识点关联概率基于知识地图理论中不仅对知识点建立关联性,追根溯源还对非关联性的知识点建立了关联概率,让测试效率和学习效率可以分别比同类产品的知识地图理论模型提高3-10倍。从而提高测试效率和学习效率,更加精准的检测到孩子的知识薄弱点。
用错因重构知识地图就是将每一道题标注不同种的错因。进一步重构知识地图。更加精准定位学生错因,知识薄弱点、精准的给出最适合每一个孩子的学习路径、从而提高学习效率。
“NELL理念一个非常重要的特点是能够不断的学习、不断的改善,尽管它大部分使用的是网络上未经标注的数据,但用未标记的数据来训练机器学习的逻辑,对我以及对团队其他成员来说都非常惊艳,希望更多的人能参与进来,不断优化。”