巴斯蒂安·里克的博客:旅行

Bastian Rieck博士是ETH Zürich教授Karsten Borgwardt博士的机器学习和计算生物学实验室的高级助理。他感兴趣的是了解复杂的数据集和基于拓扑结构的机器学习方法在生物医学领域。特别是与个性化医疗工具开发相关的。

在他的博客自2006年以来一直活跃,他分享了他对与编程相关的有趣话题的思考,他的研究兴趣和项目,以及许多“如何”的帖子。我喜欢这个博客的地方在于,它在分享作为一名学者的经验、为其他研究提供建议以及深入研究与机器学习和编程相关的主题之间有着很好的平衡。在这篇文章中,我将让你一窥他最近的一些帖子。

承认无知的力量

在这篇文章中,里克分享了他作为一名本科生参加高等数学课程的经历。他描述了我觉得我们中的许多人在职业生涯中的某个时候经历过的事情,你会想知道你的知识和你的同龄人的知识是如何积累起来的。在这门课上,他发现自己对同龄人充满敬畏,他们似乎很快就理解了所有的概念,即使是在介绍概念的时候。这导致感觉越来越不合时宜。然后,他回忆起他的教授是如何诚实地说出他在某一学科上有限的知识,从而真正改变了他的观点的。在一个脚注中,他甚至强调了这种特殊的互动如何成为他职业生涯中的一个变化点!

“那里作为Kreck教授的诚实和直言不讳的力量。这是他们的熟练和多产的成员,他本可以在现场弥补一些东西让我感到愚蠢。相反,他选择了智力上的诚实选择,并明确表示这是数学中正常的状况(或任何足够复杂的话题)。我抚摸了这样一个小型行动可能对一个人产生如此深远的影响,我很感激我敢于提出我的问题。

从那以后的几年里,在我与研究人员打交道的过程中,当我对知识没有足够的信心时,我从来没有假装过知识。我认为对你所知道的和你所做的诚实是很重要的我知道。无知不是道德上的缺陷-假装比你聪明(正如选择留在无知状态的那样)。

因此,这个故事的寓意是:不要害怕不知道或不理解某事。”

同样,我也很欣赏他诚实地描述这段经历。这让我反思了我职业生涯中的类似事例,以及当我们不懂一些东西时,如何通过变得脆弱,使我们自己对学生和同龄人更人性化。

机器学习需要一个Langlands计划

这篇文章吸引了我的注意力,作者是弗兰卡·米里亚姆·布吕克勒教授的《中学数学的土地》(见图1)。在这篇文章中,他认为机器学习作为一个不断发展的领域,将受益于不同分支之间的交流结构。特别是,因为这可能是一个困难的任务,即使分支有共同点。他讨论了一些解决方案,包括创建类似于Langlands计划的东西,该计划旨在研究数论和几何学之间的联系。我喜欢他的比喻,他把这个程序描述为数学的“罗塞塔石头”。

“数学的各个分支在石头上用不同的柱来表示。每个陈述和每个定理在另一个域中都有对应的。这样做的好处是,如果我有一个问题,我不能在一个领域解决,我只是把它翻译成另一个!安德烈威尔在一篇文章中讨论了这个类比给他妹妹的信,他的作品是使用数学罗萨蒂石的部分来证明定理的迷人榜样。“

图1:Franka Miriam Brückler教授和博士绘制的《中学数学的土地》。从博客文章中获得。

他争辩说,这样的程序的主要好处将是在不同领域的结果中的结果,以避免在专门从事研究人员所创建的工具的意义上。

“编写机器学习纸的古典方式是为特定问题提出一种新的解决方案。我们想说'看,我们现在能够做事,我们之前不能做!',比如上述套装学习。这是高度相关的,但我们不能忘记我们也应该看看我们的新方法是如何连接的到野外去。它是否允许概括陈述?它是否揭示了一个以前人们不太了解的问题?如果我们从不探索这些联系,我们就有可能把自己变成拥有太多零碎东西的工具制造者。正在寻找一般的而不是这一点具体的是避免这种关键的关键 - 这就是为什么机器学习需要自己版本的Langlands计划。它不一定是如此雄心勃勃或深远,但它应该是我们在各自的利基外部调查的动机。“

违约的力量

在这篇文章中,RIeck突出了选择设计人员如何为程序创建安装脚本,开发包的研究人员也是如此。特别是,为用户提供误导参数或默认的危险。

“我突然意识到我们,也就是说,除了他们的研究之外,开发软件包的研究人员准确地说同样的事情。我们创建一个软件工具,用于解决一定问题。它可能是一个我们想要划伤的痒,或者它可能是与我们的研究相关的软件 - 最后,我们都在某些语言中编写一些代码来产生某种价值。我们多久考虑我们正在暴露的API的危险?“

我发现这篇文章超级有助于在我的机器学习课上与学生交谈,了解培训模型时的重要考虑因素。许多机器学习模型都在Python库Scikit-Greatm中实现,并附上一组默认值,当误解或滥用时可能导致您绘制不正确的结论。例如,他讨论了默认在训练逻辑回归模型时,可以选择改变算法如何改变模型,通过使用称为正则化的技术来提高其在新数据点上的性能。但是,将这种技术应用于数据应该是用户的选择,并且可能会影响结果的再现性。

“在最坏的情况下,它可能会欺骗用户相信他们做到了雇用正常化,实际上它们确实如此:与出版物中的其他方法相比,常常习惯报告为分类器选择的参数。对模型的一些隐藏的假设对于纸张的再现性可能是非常有问题的。“

最后,他讨论了参数默认值的好处(决不应该删除它们!)并提供有关如何为复杂算法设置默认参数的提示。

你有没有建议的话题或博客,你想让我们考虑涵盖在未来的职位?要共享的资源?请在下面的评论中联系我们,或者在Twitter上告诉我们(@missvriveraq.

化身

关于凡妮莎·里维拉·奎诺内斯

数学博士,热衷于用数学模型、数据科学、科学传播和教育通过数字讲述故事。在Twitter上关注她:@VRiveraQPhD。
此条目已在中发布未分类. 将永久性

留下答复

您的电子邮件地址将不会发布。必需的地方已做标记*

不允许使用HTML标记。