微信公众平台 服务热线:400-9971-510

公司新闻

您当前位置:首页 > 新闻中心 > 公司新闻

怎么用3个月零根底入门「机器学习」?

  时间:2024-09-15 05:10:40 | 来源:金年会官方网站入口登录

  文章的主旨是:1. 指出一些自学的误区 2. 不过多的引荐材料 3. 供给客观可行的学习表 4. 给出进阶学习的建议。

  这篇文章的方针读者是方案零根底自学的朋友,对数学/计算/编程根底要求不高,比方:

  在许多相关的答复中,我都一再强调不要企图补足数学常识再开端学习机器学习。一般来说,大部分机器学习课程/书本都要求:

  一般人假如想要把这些常识都补全再开端机器学习往往需求很长时刻,简略功败垂成。并且这些常识是东西不是意图,咱们的方针不是成为优化大师。建议在机器学习的进程中哪里不会补哪里,这样更有意图性且耗时更低。

  尽管许多人都是冲着深度学习来的,但把深度学习作为机器学习榜首课不是个好主意。原因如下:

  更多评论能够看我的答复:深度学习的教育和课程,与传统 CS 的教育和课程有什么区别?

  机器学习的材料许多,动辄就有几个G的材料能够下载或许观看。而许多朋友都有“搜集癖”,一会儿购买十几本书的人我也常常能够看到。

  机器学习的开展和改变速度很快。在入门期间,建议“小而精”的挑选材料,挑选近期出书的且口碑杰出的书本。我不止一次的说到这个比方:

  一般来说,我比较引荐近5年内出书的书本,或许10年今后出书的书本。有些书本尽管是经典,比方Tom Mitchell的《机器学习》,但由于其出书现已超越20年,仍是不建议咱们购买。

  在这篇文章中我所引荐的书本和课程都相对比较经典,一起归于紧跟年代潮流的。入门阶段我引荐了1门课程和2本书,进阶阶段引荐了1本书,深度学习引荐了1门课程一本书,高级阶段引荐了2本额定书本。

  另一个咱们常问的问题是:是否能够用自己的笔记本电脑进行机器学习。答案是必定的,大部分市面上的数据集都能够放到你的内存中运转。在入门阶段,咱们很少会用到十分大的数据集,一般最大也便是MNIST,彻底能够运用个人笔记本电脑进行运转。在Windows笔记本上也能够用GPU进行深度学习,拜见我的教程:用GPU加快深度学习: Windows装置CUDA+TensorFlow教程。请不要打着学习的名义从头购买机器...

  假如要做深度学习,Linux仍是首选,由于其对许多学习模型支撑比较好(首要是深度学习的Library)。但即便你运用的是Windows系统,也能够用虚拟机装Ubuntu来进行学习。小型的深度学习模型足够了,大型的深度学习咱们很少在本地/个人计算机上运转。

  至于编程言语,首推Python,由于其杰出的拓宽支撑性,干流的东西包都有Python版别。在特定情况下,挑选R作为编程言语也是能够的。其他或许的言语还包括C++、Java和Matlab,但我个人不大引荐。

  此处也想额定提一句,由于编程归于机器学习根本要求之一,所以引荐咱们能够自学一些根底编程的常识(如Python),在文中不再赘述。

  学好英语,至少打下阅览和听力的根底。尽管人工智能范畴我国现在现已做得很不错,但干流的书本、期刊和会议,材料都是英文的。咱们能够承受翻译版,但最好的办法仍是自己有才能直接阅览。即便你将来不做机器学习,英文阅览才能仍是会有很大的协助。

  入门的榜首步是学习一些经典课程并配套经典书本,一般来说这个进程在半年之内比较适宜。在这个部分我介绍的课程和书本都归于难度十分低的,对数学和编程都没什么太大的要求。

  Andrew Ng的机器学习课程(Machine Learning Coursera)是许多人的启蒙课程,难度适中且彻底免费。Coursera上总共有49285个人给出了评分,均匀得分4.9分,满分5分。据我个人调查,大部分Coursera上的课程评分处于4-4.5分之间,能做到4.9分的课程屈指可数。另一个值得重视的是,这门课有挨近五万人给出评分,计算学常识告知咱们这个样本较大所以评分应该趋近于其实在值,比较可信。依据Freecodecamp的计算,这门课是一切在线Machine Learning课程中最遭到咱们好评的课程。另一个比较直接的调查是假如咱们在知乎上查找“机器学习怎么入门?”,大部分答案都说到了Andrew的这门入门课程,所以这是一门肯定的口碑课程,具体评论能够参阅:微调:为何国人沉迷吴恩达的机器学习课?。

  在学习吴恩达的在线课程时,引荐一起阅览相关的机器学习书本弥补理论常识。我再次引荐这两本十分好的入门书本,在我的专栏也有关于这两本书的介绍。

  作者 Sebastian Raschka):这本书出书于2015年并屡次再版,在亚马逊我国上咱们能够找到影印版和翻译版。这本书去掉了许多的数学推导的部分,仅保留了机器学习的中心运用。阅览本书能够快速对怎么运用Python机器学习结构Sklearn有一个根本的了解,能够很快上手开端作业。本书触及的内容很广泛,尽管只要400多页,但内容触及了数据预处理(Data Preprocessing), 维度紧缩和核函数(Dimension Reduction & Kernel),点评办法如穿插验证,集成学习,情感剖析,聚类,乃至还包括了神经网络和Theano。更多介绍:带你读机器学习经典(三): Python机器学习(Chapter 1&2)。除此之外,也想特别引荐最近新出的一本Python机器学习类书本:《Hands-On Machine Learning with Scikit-Learn and TensorFlow》。

  Introduction to Statistical Learning with R(ISL)

  :信任正在机器学习苦海中漫游的朋友们必定都听过大名鼎鼎的The Element of Statistical Learning, 这本频率学派的计算学习“圣经”被咱们叫做ESL。而ISL正是根据满意更广阔阅览人群的意图而推出的;ISL是ESL的入门版,不只许多的去除了繁复的数学推导,还加入了R编程的部分,便利咱们能够赶快上手。

  :ISL的电子版是免费的:点击下载。更多介绍:带你读机器学习经典(一): An Introduction to Statistical Learning (Chapter 1&2)

  周志华教师的《机器学习》也被咱们亲热的叫做“西瓜书”。尽管只要几百页,但内容包括比较广泛。但是和其他人的观点不同,我建议把西瓜书作为参阅书而不是主力阅览书。西瓜书由于篇幅的约束,包括了许多的内容但无法具体的展看来讲,关于初学者自学来说实践阅览难度很大。这本书更合适作为校园的教材或许中阶读者自学运用,入门时学习这本书本难度略微偏高了一些。

  我个人建议的用法是在学习网课和阅览ISL遇到疑问时能够参阅西瓜书的相关章节,但入门阶段没有必要一章一章的阅览,建议在这个阶段只阅览前十章即可。

  在这个阶段,你现已对机器学习有了根本的了解。假如你仔细的阅览了ISL并上完了吴恩达的课程,我信任你现已在理论上了解了什么是线性回归,什么是数据紧缩,对特征工程以及简略的回归/猜测问题有了理论上的根底。这个时分最重要的便是进行实践!

  Kaggle(Your Home for Data Science)在数据剖析范畴早已大名鼎鼎,乃至能够说是数据剖析榜首社区,前一阵子刚刚被谷歌收买。Kaggle上有许多很好的数据集和应战赛,你能够测验这些应战取得名次,乃至拿到奖金,关于将来找作业也十分有协助。并且Kaggle的另一大优势是网友会共享他们的阅历和观点,你也能够提出问题让咱们来帮你提出一些批改办法。

  国内也有相似的渠道,比方天池大数据比赛,其他相似的渠道还包括DataCastle。

  运用Kaggle的意图首要是将技能落在实处,避免练就一身屠龙之技。机器学习最大的错觉便是觉得自己什么都懂了,但比及真的运用时发现并不见效,而Kaggle是一个低本钱的运用机器学习的时机。

  Sklearn的文档是少量写的跟教程相同的技能文档,很具有阅览价值。举个简略的比方,假定你想学习Python中运用逻辑回归,就能够参阅:Logistic Regression 3-class Classifier

  Sklearn的文档不只供给了操练数据、sklearn的相关代码实例,还供给了可视化图。

  一起配合着scikit-learn,我会引荐参阅这本19年的新书,是我见过的为数不多的把理论和实践相结合的比较棒的书,尤其是代码部分!

  再次说到周教师是由于西瓜书是值得常常翻看的一本书,在kaggle应战和阅览Sklearn文档的进程中你还会时不时的遇到一些新的名词,比方流形学习(manifold learning)等。这个时分你会发现西瓜书真的是一本中级阶段大而全的书本:)

  由于深度学习是当下的热门,许多公司都在寻觅深度学习人才。尽管深度学习仅仅机器学习的一个子集,但有爱好朝这个方向开展的朋友能够在完结以上学习后独自学习一下深度学习。

  吴恩达在八月份的时分经过Deeplearning.ai和Coursera渠道推出了最新系列的五门深度学习课程(deeplearning.ai)。有条件的朋友能够经过Coursera学习取得证书,最近网易云讲堂也上线了这门课的翻译版。假如想要上其间的课程,需求先注册报名「深度学习工程师微专业」深度学习工程师微专业 - 一线人工智能大师吴恩达亲研-网易云讲堂 - 网易云讲堂,之后就能够别离点开每门课独自进行学习。

  更多关于网易云讲堂上深度学习课程的介绍能够看:怎么点评网易云讲堂上线的吴恩达Deep Learning课程?

  深度学习这本书是由当下深度学习范畴的几位领军人物所著,包括三大巨子之一的Bengio,还有教父Hinton来作序引荐。这本书的中文本翻译由张志华教授团队担任,在github上免费放出了翻译版别,印刷版也能够从亚马逊我国上买到。

  第13-20章为进阶章节,在入门阶段没有必要阅览。其实比较实践的做法是吴恩达的课程讲到什么概念,你到这本书里边能够阅览一些深化的理论进行概念加深,按章节阅览仍是比较耗时耗力的。

  祝贺你!假如你现已完结了上面的方案表,代表你现已有了适当的机器学习才能。这个阶段,最重要的便是不要贪多嚼不烂。假如你阅览知乎,会发现咱们都说你有必要读Elements of Statistical Learning, MLAPP之类的大部头。我供认阅览这样的书会有协助,但在你有了必定的根底常识后,信任你现已知道自己需求接着做什么了也有了情投意合的朋友,我期望把挑选权交还给你,而不是持续引荐成堆的课程和书本。当然,假如你期望持续深化的话,中文能够持续阅览周志华教师的《机器学习》和李航教师的《计算学习根底》,英文能够下手《Elements of Statistical Learning》。在这个阶段,要点要构成成系统的常识头绪,牢记贪多嚼不烂,牢记!

  从阅览论文视点来说,订阅Arxiv,重视机器学习的尖端会议,如ICML/NIPS/KDD等,相关的办法在知乎上能够很简略查找到,不在此赘述。

  假如你仍是学生,测验尽早触摸科研,进实验室。一般来说,大三的时分你应该现已有了根本的机器学习常识,尽管还比较浅。这个时分能够向教师/学长/学姐自告奋勇进实验室,即便是无偿劳作和做根本的苦力活。进实验室有两个显着的优点:

  。一般实验室做纯理论的不大需求本科生,做机器视觉或许自然言语处理(NLP)等小方向的比较需求本科生,所以这是很好的深化了解一个方向的时机。

  弥补了研讨阅历也能够了解自己是否合适这个范畴。假如命运好的话,你也有或许成为论文的作者之一,乃至能够去开会(公款旅行顺路见一下业界大佬)。

  这关于持续进修和去国外持续学习都很有协助,有科研阅历和论文是很大的筹码,关于找作业来说也肯定有利无害。

  上文说到过,机器学习光说不练假把式,最好的办法仍是要实践。因而,应该先试着做科研,再测验工业界实习。对待科研时机,有则就上,没有也不是太大的惋惜。我建议大部分做机器学习的朋友尽早实习,首要出于以下几个考量:

  。在其他许多答案中我都说到过,其实工业界用的大部分技能并不酷炫,你很少能看到深度强化学习那种AlphaGo相同酷炫的模型。不夸大的说,广义线性模型(generalized linear models)仍是占有了大壁江山,这要归功于其杰出的解说才能。从神经网络视点动身,一般也逃不过一般使命深度网络、视觉使命卷积网络CNN、语音和文字使命LSTM的套路。

  。工业界的终究意图是输出商业价值,而取得商业洞见的进程其实是十分苦楚的,比方榜首步便是令人疾恶如仇的数据清洗。毫不夸大的说,工业界百分之六十的时刻都在整理数据,这和学术界洁净且规则化的现成数据彻底不同。没有在工业界体会过的人,无法真的了解本来机器学习自始至终有那么多圈套,泛化才能仅仅终极方针,而往往咱们连规整的数据都无法得到。

  。做技能的人往往一头扎进技能里边,而忽视了从大局考虑。举个比方,模型A的准确率95.5%,每次练习时刻是3天,需求6台有GPU的服务器。而模型B的准确率是百分之95.2%,但只需求一台一般的macbook练习4个小时就能够了。从学术视点动身咱们往往寻求更好的模型成果选A,而工业界还要考虑到练习开支、模型可解说性、模型安稳度等。到工业界实习不只能够培育咱们的微观掌控才能,对将来自己带学生操控开支或许选题也大有协助

  关于大部分现已作业的朋友来说,从头回到校园攻读学位并不实际,进研讨室进行学习更是短少时机。那么这个时分,你就能够试着把机器学习运用到你自己的作业傍边。

  现已有了作业/研讨阅历的朋友,要试着将自己的作业阅历运用起来。举例,不要做机器学习里边最拿手出资的人,而要做金融范畴中最拿手机器学习的专家,这才是你的价值建议(value proposition)。最重要的是,机器学习的根本功没有咱们想的那么高不行攀,没有必要抛弃自己的本专业全职转行,淹没本钱太高。经过跨范畴彻底能够做到曲线救国,化下风为优势,你们或许比只懂机器学习的人有更大的职业价值。

  举几个我身边的比方,我的一个朋友是做传统软件工程研讨的,前年他和我商议怎么运用机器学习以GitHub上的commit前史来辨认bug,这便是一个很好的结合范畴的常识。假如你自身是做金融身世,在你补足上面根本功的一起,就能够把机器学习穿插运用于你自己拿手的范畴,做战略研讨,我现已传闻了无数个“声称”运用机器学习完成了买卖战略事例。虽不行尽信,但对特定范畴的深刻了解往往便是捅破窗户的那最终一层纸,只了解模型但不了解数据和数据背面的含义,导致许多机器学习模型只停留在美观而不实用的阶段。

  尽管人们曾说二十一是生物的世纪,但现在仍是人工智能的世纪。欢迎咱们来试试机器学习,体会数据剖析的魅力。

  就像我曾在许多答复中说到,机器学习范畴应该要敞开大门,让每个人都能够测验将机器学习常识运用于他们本来的范畴,摒弃人为制作的常识壁垒。唯有这样,机器学习技能才能在更多的不同范畴落地,然后反哺机器学习研讨自身。

  科技一日千里,追逐热门是好的。但在这个浮躁的年代,不论挑选什么方向最重要的便是独立考虑的才能,和去伪存真的勇气。因而,看了这么多入门教程和阅历共享后,我最期望的是你既不要急着全盘承受,也不要由于不对食欲全盘否定。慢下来,好好想想,拟定合适自己的方案,这大约才是做科学作业的正确态度。

  在考虑之后,回绝外界的噪音,无论是鼓舞仍是讪笑。抱着“不撞南山不回头”的信仰,持续朝机器学习的顶峰攀爬。好运!

  3.现在机器学习工业界和学术界的不同越来越大了吗?尽早实习和结壮科研各有什么利害?