现在有哪些讨9博体育论深度学习、机器学习的论坛推荐?

  9博体育Reddit和Quora更偏向资讯交互,解决具体技术问题的讨论较少,偏方法论。后三个偏向解决具体问题,很多非常具体。Quora和stackexchange上不乏有大佬出没。

  以中文为主体的机器学习论坛似乎没有特别出名的。据我观察,现阶段水平比较高的竟然是...知乎(机器学习深度学习(Deep Learning),很像是Reddit、Quora和StackOverlow的结合体。CSDN上也不乏有些不错的文章,但似乎更新的频率不高,文章偏老。

  但知乎的理念不是解决个人的问题,问题归所有网友,每个人都可以修改。如果你提的问题太具体,估计感兴趣的人很少,没人回答。如果提的太广,太方法论,又不容易看到干货。

  这也提出了一个痛点,就是能不能做一个专业的机器学习问答平台。然而这很不容易,这首先需要有一批靠谱的“种子用户”,这个成本和代价是极高的。即使以大牛云集的知乎为例,你提出一个具体的问题,至少要清楚大概哪些人能够回答你的问题,不然很容易石沉大海。比如深度调参方向邀请XXX,优化理论邀请XXX,偏统计方向的问题邀请XXX。这个需要花些时间了解一个社区,初来乍到很难找到正确的人提问,因此体验不好。有空应该大家一起合作准备一份擅长回答问题方向清单,帮助网友邀请正确的答主回答。

  最后再多说一句,现在这个方向这么火热,大牛们都忙着掘金(创业9博体育、讲座、科研),很少有人愿意花时间在网络论坛上“散播欢乐散播爱”。所以在机器学习论坛上,大家最好火气都小一点,说话都平和点,可能这样才会多几个人愿意回答问题。毕竟答题写文章的初衷是“有意思”,不是想磨练自己成为辩手或者杠精。以上。

  在英文互联网里面,像deep learning这样的新的流行事物,像很多其他的技术一样,我个人感到主要还是以博客(blog)为主体(没有详细调查,只是日常的一些感受,当然主要还是读文档)。而中文环境里面,博客的生态从上一波互联网浪潮以后好像就已经不再流行了。

  如果是出于为一些比较专门化,细节化的问题发帖,然后得到迅速答复的一个forum的形式,其实贴吧更为符合,那两年卖吧以后现在好像蛮凉了,Reddit可能就更像是通常想象中的那样。

  至于问答社区,stackOverflow上面数据科学应该不会越俎代庖成为主体,exchange活跃度一直比较一般吧,至于Quora,跟知乎比起来流量差异还是蛮大的。

  这就取决于到底是要寻找什么样的资源,如果是关于框架,软件,代码,往Google一扔其实一般情况下GitHub的issue区才最为靠谱。如果是关于算法层面等的问题,blog和相关文档会更靠得住些。

  其实说了这么多,我是觉得知乎才是最大的deep learning社区(雾)。贵乎从装机教程(装框架,装软件balabala),各种算法介绍讲解,论文解读分析,潮流趋势解读,follow大佬言论,甚至论文审稿(雾)一应俱全。

  fast.ai的论坛,每天仍然有许多人在上面讨论课程或者课程以外的技术问题。

  paperweekly,推荐论文的专业论坛,上面有许多用户推荐的论文。

  当然还有github,github是讨论技术问题的最好地方,但问题在于假如你关注的一个技术问题并没有任何的repo,或者star的人很少,自然就没什么人讨论。

  因为专业方向一旦细分,每个方向的人数其实都不多,很小的圈子里很少可以有人可以坐下来在网络上提出什么深入的见解,更何况有些人还会视自己圈子里的人为竞争对手。

  开组会的时候,下面一群phD竖着耳朵随时随地准备挑刺,泛泛而谈和囫囵吞枣肯定是没法瞒天过海的,各种不同意见的交锋往往可以激发出更好的idea,这种功能是论坛无论如何都无法给予的。

  前面的回答基本上都涵盖了比较好的去处了吧。就个人而言,英文主要是reddit的ml板块,推特上关注的一些行业大牛,或者hashtag(比如nlp就是#NLProc),quora,stackoverflow和mathexchange。中文的话知乎和微博也可,关键在于怎么构建自己的timeline

  总结了目前最为简单易用的机器学习工具清单,也希望你能尽早成为这一领域的专家。

  RapidMiner(RM)最初源自YALE(Yet Another Learning Environment)项目,2007年正式更名为RapidMiner。RM涵盖了预测建模的整个生命周期,包括数据准备、数据建模、验证和部署。借助RM,你可以在没有一行代码的情况下运行各种各样的机器算法,同时,RM也支持R和Python脚本。

  目前,RM被用于各行各业,包括汽车、银行、保险、生命科学、制造业、石油和天然气、零售、电信和公用事业等。2014年,RM正式进入中国预测性分析市场,主要为中国用户提供预测性分析解决方案、技术支持、培训及认证服务。

  RapidMiner Studio:一款可用于数据准备,可视化分析和统计建模的客户端软件。

  RapidMiner Server:适用于企业级环境,具有中央存储库功能,可以轻松进行团队协同,项目管理和模型部署,与RapidMiner Studio无缝集成。

  RapidMiner Cloud:基于云的存储库,可以轻松实现各种设备之间信息共享。

  DataRobot(DR)是一款高度自动化的机器学习平台,由全球最好的Kagglers创建,包括Jeremy Achin,Thoman DeGodoy和Owen Zhang。在DR官网上我们可以看到这样一句话,“数据科学需要数学、统计学、编程技能和商业认知。借助DataRobot,你可以轻松获得数据和业务见解,其余部分由我们负责。”

  通过采用文本挖掘,变量类型检测、插补、缩放、转换等手段自动检测最佳数据预处理和特征工程。

  BigML平台旨在帮助客户创建,快速实验,全面自动化并管理机器学习工作流程。BigML提供了很好的可视化功能,并具备求解分类、回归、聚类、异常检测等算法。该产品可以按照月、季度和年度进行订阅,同时也提供免费版本(免费版本的数据集限制为16 MB)。

  BigML的平台,私用部署和丰富的工具集将继续帮助我们的客户创建,快速实验,全面自动化并管理机器学习工作流程,以提供同类中最佳的智能应用程序。基于图形用户界面,BigML提供了以下功能:

  Cloud AutoML是Google机器学习套件产品的一部分,可以帮助非ML专业人员构建高质量的机器学习模型。Cloud AutoML使得训练图像识别模型变得更加简单,用户只需要通过拖拽操作就可以上传图像、训练模型和部署模型。

  Paxata并不是一款机器学习或建模工具,其主要用于数据清洗和数据准备。Paxata提供了可视化指导,用户可以轻松地将数据汇集到一起,并进行查询、修复、清洗、共享等操作。与文中其他工具一样,使用Paxata无需具备编码或脚本能力。目前,Praxata已经开始涉足金融、消费品和互联网领域。如果你的工作包含数据清理,那么Paxata是一个很好的工具。

  清理+更改:使用插补等步骤执行数据清理,使用NLP对相似值进行规范化,检测重复项。

  组合:通过专利技术SmartFusion9博体育,Paxata允许将数据帧与1次点击组合在一起,并自动检测出最佳组合,同时多个数据集可以组合成一个AnswerSet。

  BI工具:可以在常用的BI工具中轻松实现数据可视化,还可以实现数据预处理与可视化之间的迭代。

  Trifacta是另外一家专注于数据准备的创业公司,Trifacta提供了非常直观的GUI来进行数据处理操作。对于每一列,Trifacta都会自动推荐一些可以通过单击进行选择的转换,也可以使用一些预定义的函数对数据执行各种转换,这些函数可以在界面中轻松调用。Trifacta主要用于金融、生命科学和电信行业。目前该产品提供了三个版本:

  Wrangler Pro:上述的升级版本。允许单用户和多用户,数据量限制为40GB。

  Wrangler Enterprise:Trifacta的最高级产品。其对处理的数据量没有任何限制,并允许无限制的用户,非常适合大型组织。

  充实:这一步有助于提高分析质量,通过添加更多来源的数据或对现有数据执行一些功能来完成。

  MLBase是加州大学伯克利分校的AMP(算法机器人)实验室开发的一个开源项目。其背后的核心思想是为机器学习应用于大规模问题提供一个简单的解决方案。

  MLlib:Apache Spark中的核心分布式ML库。 它最初是作为MLBase项目的一部分开发的,但现在Spark社区也在支持它。

  MLI:用于特征提取和算法开发的实验性API,它引入了高级ML抽象编程。

  ML优化器:旨在自动执行ML管道构建任务。优化器通过包含在MLI和MLlib中的特征提取器和ML算法来解决搜索问题。

  Auto-WEKA是一个用Java编写的数据挖掘软件,由新西兰怀卡托大学的机器学习小组开发。这是一个基于GUI的工具,对数据科学初学者非常有用。最重要的是,Auto-WEKA是完全开源的,开发者已经提供了详细的使用教程和论文帮助你更好的使用它。目前Auto-WEKA主要用于教育和学术研究。

  Driverless AI是由开源机器学习平台h2o.ai推出的最新产品,这一工具可以帮助非技术人员准备数据,审校参数,确定最优算法,进而用机器学习来解决专门的企业问题。该产品旨在降低数据科学在企业环境下运行的门槛。

  多GPU对XGBOOST,GLM和K-Means等的支持,即使对于大型复杂的数据集也能提供出色的训练速度。

  Azure ML Studio是一个简单而强大的基于浏览器的ML平台,其拥有可视化的拖放环境,不需要编码。微软已经为新手准备了非常全面的教程和应用示例,以帮助用户快速掌握该工具。Azure ML Studio的使用步骤非常简单:

  同Azure ML Studio一样,MLJar也是一个基于浏览器的平台,用于快速构建和部署机器学习模型。MLJar的操作界面非常直观,并允许用户并行训练模型。MLJar具有内置的超参数搜索功能,可以更轻松地部署模型。同时,MLJar提供了与NVIDIA的CUDA、Python以及TensorFlow等的集成。

  目前该工具采取订阅付费模式,同时也提供免费版本(0.25GB的数据集限制)

  Amazon Lex提供了一个易于使用的控制台,可以帮助用户在几分钟内构建属于自己的聊天机器人。用户可以使用Lex在自己的应用程序或网站中构建会话界面。你需要做的就是提供一些短语,剩下的都可以交给Amazon Lex!其构建了一个完整的自然语言模型,使用该模型,客户可以使用语音和文本与应用程序进行交互。

  Amazon Lex还与亚马逊网络服务(AWS)平台进行了集成,Lex是一项完全托管服务,随着用户参与度的增加,您也无需担心配置硬件和管理基础架构。

  如何从这个清单中排除IBM?这个世界上最知名的IT品牌之一。IBM Watson Studio为构建和部署机器学习和深度学习模型提供了一个出色的平台。借助Watson Studio,你可以轻松完成数据准备工作、使用RStudio等熟悉的开源工具、访问最流行的库、训练深度神经网络等。对于机器学习的入门者来说,IBM提供了一系列的教程视频帮助你入门Watson Studio。

  KNIME - 该工具非常适合训练机器学习模型,而且GUI体验很棒,更重要的是KNIME完全免费。

  FeatureLab - 它允许使用GUI进行简单的预测建模和部署。该产品最大的卖点之一是自动特征工程。

  Logical Glue - 另一种基于GUI的机器学习平台,主要用于从原始数据处理到部署。

  我们就是。我们是中文的数据科学社区,考虑到受众范围,更多得是面向初学者、从业者,而非研究学者、教授专家。

  SofaSofa是给机器学习的学习者、爱好者、从业者讨论的社区。我们并没有完整支持手机浏览与访问,因为来自手机的提问和回复质量往往偏低,描述往往过于简单。

  机器学习和深度学习都是人工智能的形式。准确地说,深度学习是机器学习的一种特定形式。机器学习和深度学习都从训练和测试模型开始,并经过优化找到一个权重使模型效果更好。两者都可以处理数字(回归)和非数字(分类)问题,尽管在对象识别和语言翻译等多个应用领域中,深度学习模型往往比机器学习模型更适合。

  机器学习算法通常分为有监督的(训练数据有标记答案)和无监督的(可能存在的任何标签均未显示在训练算法中)。有监督的机器学习问题又分为分类(预测非数字答案,例如错过抵押贷款的可能性)和回归(预测数字答案,例如下个月在曼哈顿商店出售的小部件的数量)。

  无监督学习可进一步分为聚类(查找类似对象的组,例如跑鞋,步行鞋和正装鞋),关联(查找对象的常见序列,例如咖啡和奶油)和降维(投影,特征选择) ,以及特征提取9博体育。

  分类问题是有监督的学习,要求在两个或多个类别之间进行选择,通常为每个类别提供概率。除了需要大量高级计算资源的神经网络和深度学习之外,最常见的算法是朴素贝叶斯,决策树,逻辑回归,K最近邻和支持向量机(SVM)。也可以使用集成方法(模型的组合),例如“随机森林”,其他“装袋”方法以及增强方法(例如,AdaBoost和XGBoost)。

  回归问题是有监督的学习,要求模型预测数字。最简单,最快的算法是线性(最小二乘)回归,但一般不应止步于此,因为它通常会返回一个中等的结果。其他常见的机器学习回归算法(缺少神经网络)包括朴素贝叶斯,决策树,K最近邻,LVQ(学习矢量量化),LARS套索9博体育,弹性网,随机森林,AdaBoost和XGBoost9博体育。值得注意的是,用于回归和分类的机器学习算法之间存在一些重叠。

  聚类问题是一种无监督的学习问题,它要求模型查找相似数据点的组。最受欢迎的算法是K-Means聚类;其他包括均值漂移聚类,DBSCAN(基于噪声的应用程序基于空间的聚类),GMM(高斯混合模型)和HAC(分层聚类)。

  降维是一个无监督的学习,它要求模型删除或组合对结果影响很小或没有影响的变量。这通常与分类或回归结合使用。降维算法包括删除具有许多缺失值的变量,删除具有低方差的变量,决策树,随机森林,删除或组合具有高相关性的变量,后向特征消除,前向特征选择,因子分析和PCA(主成分分析)。

  训练和评估可以通过优化监督算法的参数权重,找到最适合数据真实性的一组值,从而将监督学习算法转变为模型。算法通常将最速下降的变量用于优化程序,例如随机梯度下降,它是从随机起始点多次执行的最速下降。

  还可以做更多的事情,但这取决于收集的数据。这可能很乏味,但是如果在机器学习过程中设置了数据清理步骤,则可以随意修改并重复进行。

  要将分类数据用于机器分类,需要将文本标签编码为另一种形式。有两种常见的编码。

  一种是标签编码,这意味着每个文本标签值都用数字代替。另一种是一键编码,这意味着每个文本标签值都将变成具有二进制值(1或0)的列。大多数机器学习框架都具有进行转换的功能。通常,独热编码是首选,因为标签编码有时会使机器学习算法混淆,以为编码列应该是有序列表。

  要将数字数据用于机器回归,通常需要将数据标准化。否则,具有较大范围的数字可能倾向于主导特征向量之间的欧几里得距离,其影响可能会以其他场为代价而被放大,并且最陡的下降优化可能会难以收敛。有多种方法可以对数据进行标准化和标准化以进行机器学习,包括最小-最大标准化,均值标准化,标准化以及按比例缩放到单位长度。此过程通常称为特征缩放。

  特征是被观察的现象的个体可测量特性或特征。“特征”的概念与解释变量的概念有关,该解释变量在诸如线性回归之类的统计技术中使用。特征向量将单行的所有特征组合为数值向量。

  选择特征的部分技术是选择一组最少的解释问题的自变量。如果两个变量高度相关,则要么需要将它们组合为一个功能,要么应将其删除。有时人们进行主成分分析以将相关变量转换为一组线性不相关变量。

  人们用来构造新特征或降低特征向量维数的一些转换很简单。例如,Year of Birth从中减去Year of Death并构造Age at Death,这是寿命和死亡率分析的主要独立变量。在其他情况下,特征构造可能不是那么明显。

  在有监督的机器学习中,通常的做法是将数据集划分为子集,以进行训练,验证和测试。一种工作方式是将80%的数据分配给训练数据集,并将10%的数据分配给验证和测试数据集。(确切的划分是一个优先事项。)大部分训练是针对训练数据集进行的,而预测则是在每个时期结束时针对验证数据集进行的。

  验证数据集中的错误可用于识别停止标准或驱动超参数调整。最重要的是,验证数据集中的错误怼找出模型是否过拟合训练数据有帮助。

  通常在最终模型上对测试数据集进行预测。如果测试数据集从未用于训练,则有时称为保持数据集。

  还有其他几种分割数据的方案。交叉验证是一种常见的技术,涉及将完整数据集重复拆分为训练数据集和验证数据集。在每个时期结束时,将对数据进行混洗并再次拆分。

  深度学习是机器学习的一种形式,其中所训练的模型在输入和输出之间具有多个隐藏层。在大多数讨论中,深度学习意味着使用深度神经网络。但是,除了神经网络之外,还有一些算法可以使用其他类型的隐藏层来实现深度学习。

  “人工”神经网络的思想可以追溯到1940年代。基本概念是,由相互连接的阈值开关构建的人工神经元网络可以像动物大脑和神经系统(包括视网膜)一样学习识别模式。

  基本上,通过在训练过程中同时激活两个神经元之间的连接来进行学习。在现代神经网络软件中,最常见的问题是使用称为误差,反向传播或BP的反向传播的规则来增加神经元之间连接的权重值。

  神经元如何建模?每个都有一个传播函数,该函数通常使用加权和来转换连接的神经元的输出。传播函数的输出传递到激活函数,当其输入超过阈值时将激活。

  在1940年代和50年代,人工神经元使用了逐步激活功能,被称为感知器。现代神经网络可能会说他们正在使用感知器,但实际上具有平滑的激活函数,例如逻辑或乙状函数,双曲正切或整流线性单位(ReLU)。ReLU通常是快速收敛的最佳选择,尽管如果将学习速率设置得太高,它在训练过程中会出现神经元“死亡”的问题。

  激活函数的输出可以传递到输出函数以进行其他整形。但是,输出函数通常是身份函数,这意味着激活函数的输出将传递到下游连接的神经元。

  现在我们了解了神经元,我们需要了解常见的神经网络拓扑。在前馈网络中,神经元被组织为不同的层:一个输入层,n个隐藏处理层和一个输出层。每层的输出仅进入下一层。

  在具有快捷连接的前馈网络中,某些连接可以跳过一个或多个中间层。在循环神经网络中,神经元可以直接或间接地通过下一层来影响自己。

  就像任何其他机器学习一样,可以进行神经网络的监督学习:向网络展示训练数据组,将网络输出与所需输出进行比较,生成误差向量,并基于误差向量对网络进行校正。在应用校正之前一起运行的一批训练数据称为时期。

  对于那些对细节感兴趣的人,反向传播使用误差(或成本)函数相对于模型的权重和偏差的梯度来发现正确的方向,以最大程度地减少误差。两件事控制着校正的应用:优化算法和学习率变量。学习速率变量通常需要较小,以确保收敛并避免引起死的ReLU神经元。

  神经网络的优化程序通常使用某种形式的梯度下降算法来驱动反向传播,通常采用一种机制来避免陷入局部最小值中,例如优化随机选择的微型批次(随机梯度下降)并将动量校正应用于梯度。一些优化算法还通过查看梯度历史记录(AdaGrad,RMSProp和Adam)来调整模型参数的学习率。

  与所有机器学习一样,您需要对照单独的验证数据集检查神经网络的预测。否则,您可能会冒险创建仅记住其输入而不学会学习广义预测器的神经网络。

  用于实际问题的深度神经网络可能具有10层以上的隐藏层。它的拓扑可能很简单,也可能很复杂。

  网络中的层越多,它可以识别的特征就越多。不幸的是,网络中的层越多,计算所需的时间就越长,并且训练起来就越困难。

  卷积神经网络(CNN)通常用于机器视觉。卷积神经网络通常使用卷积,池化,ReLU,完全连接和丢失层来模拟视觉皮层。卷积层基本上采用许多小的重叠区域的积分。池化层执行非线性下采样的形式。ReLU层应用非饱和激活函数f(x)= max(0,x)。在完全连接的层中,神经元与上一层中的所有激活都具有连接。损失层使用Softmax或交叉熵损失函数进行分类,或使用欧几里得损失函数进行回归,计算网络训练如何惩罚预测标签与真实标签之间的偏差。

  递归神经网络(RNN)通常用于自然语言处理(NLP)和其他序列处理,还有长短期记忆(LSTM)网络和基于注意力的神经网络。在前馈神经网络中,信息从输入经过隐藏层流到输出。这将网络限制为一次只能处理一个状态。

  在递归神经网络中,信息通过一个循环循环,这使网络可以记住最近的先前输出。这样可以分析序列和时间序列。RNN有两个常见的问题:爆炸梯度(通过固定梯度很容易固定)和消失梯度(不太容易固定)。

  在LSTM中,在两种情况下,网络都可以通过更改权重来忘记(控制)先前的信息并记住这些信息。这有效地为LSTM提供了长期和短期记忆,并解决了梯度消失的问题。LSTM可以处理数百个过去输入的序列。

  注意模块是将权重应用于输入向量的通用门。分层的神经注意编码器使用多层注意模块来处理成千上万的过去输入。

  不是神经网络的随机决策森林(RDF)对于一系列分类和回归问题很有用。RDF由多层构成,但不是神经元,而是由决策树构建,并输出各个树预测的统计平均值(分类模式或回归均值)。RDF的随机方面是对单个树使用引导聚合(也称为装袋),并为树获取特征的随机子集。

  XGBoost(极限梯度增强)也不是一个深度神经网络,它是一种可扩展的,端到端的树增强系统,已针对许多机器学习挑战产生了最先进的结果。经常提到装袋和提振。区别在于,梯度树增强不是生成随机树的集合,而是从单个决策树或回归树开始,对其进行优化,然后从第一棵树的残差构建下一棵树。

  通常,经典(非深度)机器学习算法比深度学习算法训练和预测速度快得多。一个或多个CPU通常足以训练经典模型。深度学习模型通常需要诸如GPU,TPU或FPGA之类的硬件加速器进行培训,并且还需要大规模部署。没有它们,模型将需要几个月的训练时间。

  对于许多问题,一些经典的机器学习算法将产生一个“足够好”的模型。对于其他问题,过去经典的机器学习算法效果不佳。

  深度学习通常会受到攻击的一个领域是自然语言处理,其中包括语言翻译,自动摘要,共指解析,语篇分析,形态分割,命名实体识别,自然语言生成,自然语言理解,词性标记,情感分析和语音识别。

  深度学习的另一个主要领域是图像分类,其中包括具有定位,对象检测,对象分割,图像样式转换,图像着色,图像重建,图像超分辨率和图像合成的图像分类。

  此外,深度学习已成功用于预测分子将如何相互作用,以帮助制药公司设计新药,搜索亚原子颗粒并自动解析用于构建人脑三维地图的显微镜图像。