本文是笔者阅读各大社区、技术手册、博客文集进行笔记摘抄,经过筛选和过滤后,综合个人兴趣和实际需求,摘录各方有思辨力的观点而成。如有侵权,请告知立删。
-
现在的人工智能技术仅仅是基于大量数据的曲线拟合,它不能进行归因与总结,未来的发展方向是知识网络赋能数据表达——The expression of knowledge networks enables data,构建具有预见性的决策与行动模式。
-
虽然深度学习似乎是最近几年刚兴起的名词,但它所基于的神经网络模型和数据编程的核心思想已经被研究了数百年。自古以来,人类就一直渴望能从数据中分析出预知未来的窍门。数据分析正是大部分自然科学的本质,我们希望从正常的观测中提取规则,并找寻不确定性。
-
科学如果不能在参与决策性上有进一步优化,将面临被公众边缘化的风险。作为第四次工业革命的“电力与原油”,人工智能势必为推动科学向前发展。大数据对计算力的暴力消耗不利于科学家做出实时性预测,当下迫切需求是AI必须用小规模数据就能短时间内得出可靠结论。
-
但是当数据量非常小的时候,深度学习的复杂网络往往无法取得很好的效果。AI应用在提高极端事件预测能力方面,仍然存在很大问题。一是未来可能发生历史数据训练的模型中没有归纳进去的机制,二是“臭名昭著”的深度学习黑箱,算法进行归纳的逻辑无从掌握,透明度差导致其不可信,因此预测的风险性很大。
-
现在的深度学习已经逐渐演化为一种高性能计算的问题,应用方面和数学越来越远了。
-
地球科学家Reichstein指出物理模型和深度学习相结合的未来发展方向,亦即多元模型方法(hybrid modelling approach)。深度学习将逐渐取代一些半经验的物理模型,未来只会保留最少的基本物理模型,同时指出深度学习在地球科学的应用的最大挑战是理解数据其中的意义,可解释性至关重要。
-
诺贝尔经济学奖得主托马斯·萨金特则认为人工智能其实就是统计学。现在的深度学习本质是基于概率统计,什么叫做概率统计?没有那么玄,深度学习是寻找那些重复出现的模式,因此重复多了就被认为是规律(真理),因此谎言重复一千遍就被认为真理,所以为什么大数据有时会做出非常荒唐的结果,因为不管对不对,只要重复多了它就会按照这个规律走,就是谁说多了就是谁。
-
但是人工智能的核心是知识表示、不确定性推理这些,因为人类智慧的源泉在哪?在知识、经验、推理能力,这是人类理性的根本。现在形成的人工智能系统都非常脆弱容易受攻击或者欺骗,需要大量的数据,而且不可解释,存在非常严重的缺陷,这个缺陷是本质的,由其方法本身引起的。必须具有可解释性。你要它做决策,你不理解它,飞机就让它开,谁敢坐这架飞机?所以目前的阶段,车和飞机还是不能完全让机器开的。为什么司机坐在上面我们放心?因为我们和他同命运,要撞死一块撞死,机器和你可不是同一命运,它撞不死,你撞死了。
-
改良是不行的,深度学习的本质就是利用没有加工处理过的数据用概率学习的“黑箱”处理方法来寻找它的规律,这个方法本身通常无法找到“有意义”的规律,它只能找到重复出现的模式,也就是说,你光靠数据,是无法达到真正的智能的。此外,深度学习只是目前人工智能技术的一部分,人工智能还有更大更宽的领域需要去研究,知识表示、不确定性处理、人机交互,等等一大片地方,不能说深度学习就是人工智能,深度学习只是人工智能的一部分。现在提出的是要建立可解释、鲁棒性(注:可以理解为稳健性)的人工智能理论和方法,发展安全、可靠和可信的人工智能技术。
-
人工智能技术是一个赋能引擎,本身并不自带商业场景。人工智能在商业中落地时, 老板可能真的不需要去了解你的整个模型的具体算法实现,如果我作为老板我也只需要知道你这个模型实现的大致原理是否合理?能把核心盈利指标提高多少?是否有其他负面影响?
-
计算机科学家所谓的机器学习其实就是统计里面的prediction而已。因此这两个学科又开始重新融合。 前者虽然有很强的预测力(机器学习),但是没有解释能力(统计解释)。 作为一个数据科学家,80%的时间你是需要跟客户,团队或者上司解释为什么A可行B不可行。如果你告诉他们,“我现在的神经网络就是能有那么好的预测力可是我根本就没法解释上来”,那么,没有人会愿意相信你。
-
数据科学在很多企业已经成为像以前驾驶、英语一样的通用技能,正是因为越来越重要,所以,基本上人人都要会,将来要想专职从事数据科学工作,你必须会点别人不会的,你掌握的技能难度要加大,门槛要够高,你要能胜任相当专精的数据分析、研究工作才行。就好比说,大家都会飙几句英语,但不是人人都能搞同声传译。 第一需求没那么大,第二真正需要的是高精尖人才,一个kaggle master抵100个普通的data scientist,背后的feature engineering技巧没个两三年的积累根本不可能在最后结果上有很大的提高。
-
公司也好,科研项目也好,数据科学是要为最终目的服务的,如果无法解决那个核心问题,数据科学家很有可能不被重视。 如果数据科学家不能从决策者的角度来考虑问题,而只是沉迷于模型搭建、框架开发和数据分析,不免会被人成为“play numbers”。一个成熟的数据科学家需要结合相关背景来探讨数据背后的意义。经过复杂的分析尤其是复杂算法得到的结果越难适用(结论伴随概率)也越难被解释。问题比方法重要,越重要的问题,越容易被发觉。
-
大学教育很大程度上教会了你如何用特定的方案解决适定问题,但用这种方式去对待数据科学研究却注定失败。你在研究中做的很多事并不会让你接近答案,而是让你更好地理解问题。用学到的东西,而不是取得的研究进展来衡量自己的进步。你的职业生涯大部分时候只能由进步来定义,而这些进步并没有真正解决任何问题,因为它们只是在从概念到可行的技术旅程中前进了一步。这会让你感到焦虑。如果你担心被人抢先,那你可能一开始就选错方向了。如果你觉得一个问题可能很快会被研究社区的其他人解决,那它一开始就不值得你花时间去研究。
-
增强AI可解释性:“臭名昭著”的深度学习黑箱,来自于大量非结构数据输入之后,算法进行归纳的逻辑无从掌握。而图网络可以操作知识的归纳逻辑,看出行为的因果关系,显然对是黑箱性的一次突破。深度学习的另一个问题,就是很多算法必须经历超大规模训练来提升精度。而这也是对算力和数据的暴力消耗。如果能让AI具备逻辑上的迁移可能,那么具备人类常识的AI,将可以在很小的数据样本中完成相对复杂的工作。
-
例如,我们经常谈论个性化教育、因材施教的理念。其核心在于理解学生当前的知识体系,而且这种知识体系依赖于我们所获取到的数据比如交互数据、评测数据、互动数据等等。为了分析学习路径以及知识结构,我们则需要针对于一个领域的概念知识图谱,简单来讲就是概念拓扑结构。知识图谱作为人工智能的一个新的分支,它的主要作用还是在于分析关系,尤其是深度的关系。所以在业务上,首先要确保它的必要性,其实很多问题可以用非知识图谱的方式来解决。知识图谱领域一个最重要的话题是知识的推理。 而且知识的推理是走向强人工智能的必经之路。但很遗憾的,目前很多语义网络的角度讨论的推理技术(比如基于深度学习,概率统计)很难在实际的垂直应用中落地。其实目前最有效的方式还是基于一些规则的方法论,除非我们有非常庞大的数据集。最后,还是要强调一点,知识图谱工程本身还是业务为重心,以数据为中心, 不要低估业务和数据的重要性。
-
2012年的科研成果,现在说起来都已经是上古时代的故事了。快速的迭代带来的大量机遇和挑战是非常令人兴奋的,无论是有经验的研究者还是新学 AI 的工程师,在当今云化、智能化的年代,如果能快速学习并刷新算法和工程的各种挑战,就可以通过算法创新引领并且赋能社会各个领域。人工智能领域开源开放的各种代码,科研文章和平台给大家创造了比以前更容易的入门门槛,机遇都掌握在我们自己手中。所有东西都会变成「软体定义」(Software Defined) 和「成为一项服务」(As-A-Service)。
-
平时做研究,要纪录结果,写报告、论文。研究的中间结果有很多都是程序计算的数据,然后绘成曲线、分布的图片,再插入到文档中;发表论文或者审核同事的报告,有个最麻烦的事情,你不知道他的步骤或者计算是否有误。现在,代码嵌在报告正文中,或者附录在报告末尾。而你,要做的,仅仅是一键生成。 这就是真正意义上的可重复性研究!任何时候修改参数后都可以一次性生成最终的报告,就能够一劳永逸了。这就是“自动化报告”的意义。保证报告中的所有内容是完整的,可重复的,因此也称作“可重复性报告”。当读者拿到报告,不仅能够阅读内容,还能够复现其中的数据、结果。把实验代码和论文正文放到一起,编译的时候可以直接执行代码,并将结果保存在正文所需要的位置。这种方法统称为文学化编程(Literate Programming),真正的将比特的世界、原子的世界、灵魂的世界结合。
-
人工智能与传统产业没有边界,人工智能的发展将实现赋能百业。并不存在AI这个行业,只有AI+这个行业。AI需要与传统产业合作,这种关系是结合、赋能,而绝不是颠覆。AI的价值是帮助传统产业提高生产效率,解放生产力。
-
Be a black sheep. Dare to be different. 敢于不同,敢于创新。
-
国内的大数据公司,目前更多是在应用层面进行创造。这是当下国内互联网创业者最擅长的,能短期见效的、变现的应用层面的东西,比如说做数据统计、分析、挖掘等应用层面的技术。这是中国创业者在大数据行业的优势和强项。由于底层技术的缺失,根基不牢,一旦整个行业发展遭遇动荡,产业链上的创业者可能都会被波及,很难长远发展。国内每家数据公司其实都是一个数据孤岛,拥有的只是一个很片面的数据,并非一个全景化数据。现在很多号称搞AI的人干的那点事情,有的就是毫无技术含量的黑盒乱调参。不要总是想入非非,期待选对方向就能走上人生巅峰。走上巅峰主要靠的是人,而不是方向。
-
重点不在于去竞争算法岗位,而在于把算法应用在自己熟悉的领城。机器学习是个工具,工具是来解决问题的,不是用来当工具摆在那里的。有的人造工具,用的人用工具。我们应该理解人工智能是一个通用技术,可以服努于各行告业。所以不要硬转人工智能,而要迭择交叉地带使用人工智能改造、提升你所在的行业,这才是蓝海。
-
高薪的机器学习岗位数量是很有限的,且要求较高,没有相关学历难度很大。不要单纯为了钱而转行人工智能,没有相关学历和经验你最终面临的最可能是失业或者失望。欲速则不达,现代人焦虑下往往急功近利。作为一个高壁垒行业,普通人难以短时间内弥补知识上的不足。捷径才是最大的弯路。炒火一个行业的最大获益者往往也不是从业者。对于转行者来说,最优策略是做交叉方向,把人工智能应用到你熟悉的领域上去,这可以被看做一种奇道超车的方法。这样的方向不仅可以奠定你在自己域的先驱地位,从长远看获得高收入。也可以避免和科班人士正面竞争,因为学历和专业问题而吃亏。
-
人工智能,其实是圈外人的词。做过的都知道,现在只能叫人工智障。实际上各种所谓的人工智能 AI,都是机器学习去拟合参数,只是最近两年深度学习火了,大家觉得不太用自己提取特征好像就是AI了,实则依然是智障。而且表面上是不用提取数据特征了,但实际还是需要根据情况不断地修改网络结构,这其实就是把以前的特征工程后置了而已。机器学习目前落地的应用其实也比较难,君不见大公司招了那么多算法工程师,实则没出几个真正能变现的应用。人工智障,瞎逼学习,胡乱调参,这就是贵行业的现状。
-
已经有了工作/研究经验的朋友,要试着将自己的工作经历利用起来。举例,不要做机器学习里面最擅长投资的人,而要做金融领域中最擅长机器学习的专家,这才是你的价值主张(value proposition)。
-
机器学习的基本功没有大家想的那么高不可攀,没有必要放弃自己的本专业全职转行,沉没成本太高。通过跨领域完全可以做到曲线救国,化劣势为优势,你们可能比只懂机器学习的人有更大的行业价值。
-
对特定领域的深刻理解往往就是捅破窗户的那最后一层纸,只理解模型但不了解数据和数据背后的意义,导致很多机器学习模型只停留在好看而不实用的阶段。
-
工业界未来需要什么样的机器学习人才?老生常谈,能将模型应用于专业领城的人,也就是跨领域让机器学习落地的人。如果你有足够的机器学习知识,并对特定领域有良好的理解,在职场供求中你肯定可以站在优势的那一边。
-
特定领域的知识帮助我们更好的解釋机器学习模型的结果,得到老板和客户的认可,这才是算法落了地。能写代码、构建模型的人干干万,但理解自己在做什么,并从中结合自己的领域提供商业价 值 的 人 少 之 又 少 。所以调侃一句,哪个方向的机器学习人才最紧缺?答:每个领域都需要的机器学习人才,你对特定领域的理解就是你的独门秘笈。
-
Demanding but definitely doable, social but educational, a focused topic but broadly applicable skills. So with the problems, that is where you really will get your hands dirty and truly immerse yourself in this world of computer science and programming. 接受教育不应该只是找到工作满足自己的生活要求,而更应该是发现社会问题并能更好地解决社会问题,这样我们才能更好地找到自己的存在价值。
-
凯文凯利:把人工智能置入普通事物之中,才能带来真正的颠覆。屏幕无处不在,持续扩展着人类的阅读量和写作量。将从未被共享过的东西进行共享或者以一种新的方式来共享,是事物增值最可靠的方式。内容扩张得越多,就越需要过滤,以便使得注意力聚焦。注意力流到哪里,金钱就跟到哪里。对已有的事物重新排列以及再利用。答案变得廉价,提问将比回答更有力量。