注销建设工程规划许可证在哪个网站哪里找网站建设的兼职-Seo优化-葫芦岛市网站建设公司

注销建设工程规划许可证在哪个网站,哪里找网站建设的兼职,深圳百度国际大厦,手机建立网站软件原文#xff1a;towardsdatascience.com/how-artificial-intelligence-might-be-worsening-the-reproducibility-crisis-in-science-and-technology-47134f639f24 人工智能已经成为科学研究中的一个重要工具#xff0c;但人们越来越担心这些强大工具的误用正在导致科学及其技…原文towardsdatascience.com/how-artificial-intelligence-might-be-worsening-the-reproducibility-crisis-in-science-and-technology-47134f639f24人工智能已经成为科学研究中的一个重要工具但人们越来越担心这些强大工具的误用正在导致科学及其技术应用的可重复性危机。让我们探讨导致这种有害影响的根本问题这些问题不仅适用于科学研究中的人工智能也适用于人工智能开发和利用的各个方面。人工智能或 AI已经成为社会和一般技术的一个组成部分每个月都在医学、工程和科学领域发现几个新的应用。特别是AI 已经成为科学研究和新基于技术产品开发中的一个非常重要的工具。它使研究人员能够识别出人类肉眼可能不明显的数据模式以及其他类型的计算数据处理。所有这些都无疑带来了一场革命在很多情况下这种革命以改变游戏规则型的软件解决方案的形式出现。在众多例子中一些如能够进行“思考”的大型语言模型具有卓越能力的语音识别模型以及 Deepmind 的AlphaFold 2 程序它彻底改变了生物学。尽管人工智能在社会中的地位日益增长但人们越来越担心这些强大工具的误用正在加剧已经非常严重且危险的危机即威胁到科学和技术的可重复性问题。在这里我将讨论这一现象背后的原因主要关注那些广泛适用于数据科学和人工智能开发而不仅仅是科学应用的高层次因素。我相信这里提出的讨论对所有参与人工智能模型开发、研究和教学的人来说都是宝贵的。关于科学中的可重复性问题以及基于 AI 科学的特定问题首先让我们看看什么是可重复性以及它存在的问题尤其是在科学和技术领域。可重复性是支撑科学方法的一个主要原则它指出实验结果或者更相关的是训练或执行 AI 模型的结果必须是可重复的。这意味着它们必须完全可复制和可重复。要使 AI 项目具有可重复性论文和代码应该足够清晰以界定条件、输入数据、网络架构、算法以及 AI 构建过程中的任何其他元素。在一个理想的开源世界中所有这些元素都应该足够清晰地提供以便其他人能够忠实地复制和重复原始开发者的工作。从上述定义一开始你可能就看到了它与专有模型相关的明显问题。出于明显的原因这类模型的全部细节永远不会公开当然控制版权侵权也是不可能的。但即使对于可能开放的模型不完整的描述也非常普遍。结合以下我将讨论的其他问题这些都共同导致了科学、工程和技术中可重复性问题日益严重。在 AI 中可重复性对于确保使用 AI 模型的新科学模型或科学工作的有效性和可靠性至关重要。更广泛地说模型的可重复性在社区中培养了一种信任感这对于 AI 科学工具被科学界接受是必不可少的。可重复性还促进了知识和知识的积累与整合因为新的研究可以在之前的研究基础上建立并确认或挑战其结果。此外可重复性还促进了创新和创造力因为研究人员可以使用现有的数据和一定程度的确定性来探索新的问题和假设。然而可重复性并不总是容易实现有许多因素会影响它。尽管我们在这里特别讨论的是 AI 工具在科学、工程和技术发展中的应用中的可重复性问题但核心因素基本上都包含在支撑科学可重复性的指导方针中。但在 AI 领域这有一个前提即许多这些因素可能比在科学中扮演更重要的角色。数据质量和可用性当然科学依赖于数据数据必须良好。在这个阶段基于 AI 的科学的一个显著特点是与可以仅用相对较少数据点进行拟合的分析模型相反AI 模型需要大量数据进行训练。在一项研究中使用的数据应该是准确、完整和一致的并且应该使其他希望重现该研究的研究人员能够访问。然而数据质量可能会因错误、噪声、异常值、缺失值或不一致性而受损。数据的可用性也可能受到伦理、法律或技术障碍的限制或者由于对隐私、竞争或批评的担忧研究人员不愿意分享他们的数据。在人工智能的背景下这一点尤为重要因为人工智能模型需要大量的数据进行训练这些数据必须可靠在整个输入域中分布均匀无问题和无偏见并且要适当管理不保留有缺陷的点并且非常小心地丢弃被标记为异常值的数据点。模型细节和透明度这就是专有系统、知识产权、保留专利和其他与版权相关的问题通常介入的地方。理想情况下至少对于开源项目来说研究中使用的方法和模型应该被清楚地描述和记录并且应该使其他希望重现该研究的研究人员能够访问。对于具有许多不同子网络、架构、激活函数、偏差项、预处理和后处理模块以及其他元素的庞大而复杂的 AI 模型这可能非常困难实现。即使没有恶意也可能因为数量和复杂性而遗漏某些元素。在涉及许多人的大型开源项目中简单的误解可能导致整个组件被错误地描述。即使通过 GitHub 等资源共享源代码和模型也可能忽视解释输入必须如何处理或数据如何整理的需要。模型细节可以简单地省略或者模糊不清或者完全错误。透明度可能因为方法或模型的复杂性或专有性质而不足。此外某些方法和模型可能存在隐藏的假设、参数或依赖关系这些可能会影响其性能和泛化能力。特别注意在人工智能模型开发中调整大量参数和程序以优化训练和测试结果是非常常见的。这些做法通常不透明或未记录并且通常由主观指标和“直觉”来指导以改善损失和性能。在所有这些之上解释 AI 模型内部工作原理的极端困难进一步加剧了这一因素尤其是在负责准备文档的人不是开发者本身的情况下。数据泄露和操纵的风险用于训练人工智能系统的数据应与测试数据充分分离结果即训练网络的性能应尽可能独立于数据。换句话说训练数据和测试数据不应重叠如果模型训练良好则使用不同的训练和测试集重新运行其训练应产生工作效果相似的模型。当训练数据和测试数据子集之间存在重叠或相关性时可能会发生数据泄露在这种情况下会导致过拟合或偏差。反过来当研究人员修改数据或参数以获得期望的结果时无论是故意还是无意都可能导致不切实际的高准确率这并不反映真实性能。在创建适用于现实条件的人工智能模型中的挑战用于训练和测试人工智能系统的数据应反映系统将部署的现实条件。然而现实世界的数据可能比实验室条件下的数据更加多样化、复杂和嘈杂并可能引入新的变异性和不确定性来源。我将在下一节中提供一个具体的例子。此外现实条件可能会随时间变化人工智能系统可能需要适应原始训练和测试数据中未表示的新情况和场景。关于科学中可重复性问题的更多内容但并非主要围绕人工智能您可以阅读我用来帮助我撰写这篇博客文章的这篇文章链接。人工智能如何加剧科学技术中的可重复性危机让我现在具体讨论人工智能如何加剧科学技术中的可重复性危机然后简要介绍已提出的一些改善情况的方法。我这部分博客文章是基于我从关于人工智能和一般科学中的可重复性危机的这篇文章和专注于化学人工智能模型的可重复性的这篇文章中提炼的信息和例子撰写的。数据泄露如上所述当用于训练人工智能系统的数据与用于测试的数据之间缺乏足够分离时就会发生数据泄露。这个需求听起来很明显但事实证明它是问题的一个重要部分。问题是避免数据泄露很复杂因为用于人工智能模型的数据通常是高维的并且由于数据可能呈现的相关性和其他不受欢迎的特征。数据泄露已被证明会使人工智能系统偏向于学习识别与特定个人或仪器相关的特征而不是感兴趣的科学研究现象。例如一组科学家报告称一个 AI 系统可以通过分析胸部 X 光片来诊断 COVID-19 感染但堪萨斯州立大学的计算机科学家们随后表明在相同图像上训练但仅使用显示无身体部位的空白背景部分的 AI 算法仍能以远高于偶然水平识别 COVID-19 病例。这表明 AI 系统是在捕捉数据集中医学图像背景中的一致差异而不是任何临床相关的特征。显然在这里AI 系统学会了识别与特定个人或仪器在这种情况下医学图像的背景相关的特征而不是感兴趣的科学研究现象在这种情况下COVID-19 感染的存在或不存在。请参阅这里一个完整的同行评审论文报告了这一发现。数据泄露问题可能微妙但对人工智能模型的影响可能非常深远甚至使其实际上变得无用。特别是如果从用于训练的同一数据池中抽取随机子集作为测试数据就可能发生泄露。在这项示例研究中该研究分析了另一项工作中开发用于分析组织病理学图像的人工智能模型AI 科学家发现如果使用来自同一个人或同一科学设备的医疗数据在训练和测试集中AI 模型会学会识别与该个人相关的特征而不是特定的医疗状况。该研究还报告说当不同成像设备的数据在训练和测试集中混合时也可能发生同样的事情。简而言之在这些情况下AI 系统在数据上表现正确但这并不是因为它学习了与疾病相关的模式而是因为它学习了特定于个人或仪器的模式。该研究的结论是在将数据分为训练、测试和验证集时必须格外小心并且在进行控制试验以确定算法的输出是否有意义时至关重要的是要在空白背景上进行试验。即使是人工智能巨头也可能会陷入这种陷阱。例如谷歌健康的研究人员开发的一个用于分析视网膜图像以寻找糖尿病视网膜病变迹象的人工智能系统在高质量扫描图像上进行了训练然后拒绝了大多数在次优但有效条件下拍摄的正例图像这些条件下人类专家可以处理得很好。该人工智能系统学会了识别与高质量扫描相关的特征而不是糖尿病视网膜病变本身的迹象。因此该人工智能在现实世界条件下的表现无法重复。数据和参数的操纵人工智能的灵活性和可调性加上在开发这些模型时缺乏高度标准化的严谨性可能导致研究人员操纵数据和参数直到它们与预期结果一致即使没有恶意。由于许多研究人员在正确应用机器学习来测试科学假设和建模问题方面没有得到充分的培训甚至不是 AI 专家这个问题变得更加严重。这不是批评而是现实大多数创建人工智能模型来解决某个科学领域问题的科学家没有在计算机科学或与人工智能系统直接相关的其他硬核学科方面有正式背景相反他们大多数拥有自然科学或工程学的学位。在一个例子中一个研究团队使用人工智能根据历史天气数据预测未来气候模式假设由于人为引起的气候变化全球温度将在下一个世纪显著上升。他们开发了一个 AI 模型并在历史天气数据上对其进行训练但初始结果并不支持他们的假设模型仅预测全球温度略有上升他们知道这是正确的方向但太小。然后研究人员决定通过调整参数微调 AI 模型给予最近较暖的年份更多权重。他们还排除了他们认为的异常数据点。经过这些调整后AI 模型的预测与他们的原始假设一致。然后研究人员基本上过度拟合了他们的模型以确认他们想要验证的假设而不是让 AI 从数据中学习无偏的模式。针对现实世界条件的人工智能模型所面临的挑战当测试数据集不能准确反映现实世界数据时会出现另一个非常普遍的问题。在“实验室条件”下表现良好的 AI 模型在现实世界中部署时可能会失败因为条件的变化更大并且存在训练期间未见过的噪声。我们已经在谷歌健康人工智能系统从影像扫描中检测疾病的例子中看到了这个问题的一个例子。这种问题无处不在尤其是在处理图像或视频数据或传感器信息时。在某些情况下这些问题可能不仅仅是对于更好的科学很重要实际上还关乎安全。以自动驾驶汽车 AI 模型为例该模型在由数千小时在晴朗天气条件下拍摄的驾驶视频数据集上进行训练和测试。在这些条件下AI 模型表现异常出色能够准确检测其他车辆、行人和交通标志并做出正确的驾驶决策但在训练和测试数据集中未代表的情况下的表现却很差可能在数据集中大量未代表的情况中失败例如在光线昏暗条件下难以检测行人或在雪或雨中难以识别交通标志。虽然这个结论可能看起来很平常但确保测试数据集准确反映 AI 模型将部署的条件至关重要。合成数据生成的注意事项可以使用几种技术来为欠采样区域生成合成数据从而有效地扩充数据集例如Deepmind 使用这种策略来增加训练其 AlphaFold 2 模型所需的数据量。然而这些用于纠正训练或测试数据集不平衡的方法也可能导致自身问题。尽管如果操作得当这种做法可能有助于稳定训练但它也可能非常危险因为它可能会强烈地偏向模型并且始终存在“插值”数据实际上错误的风险。此外这种偏差将以一种方式起作用即最初过于乐观地估计性能但在现实世界问题上的表现却很差并且可能会持续存在于原始实际上部分是合成的数据中的固有偏差。这里的妥协在于非常谨慎地生成数据并且可能不会与现有数据相差太远。然而这可能会引入相关性并导致数据泄露并且可能无法实现平滑覆盖输入域的目的。建立标准来解决这些挑战和问题我在这次一般讨论和这篇文章中专门讨论了 AI 在化学中的应用以及关于 AI 科学中可重复性最佳实践的这次一般讨论的指导下详细阐述了这一部分。结果表明研究人员对上述所有问题都了如指掌并提出了一个用于报告基于 AI 科学的标准化清单。该清单包括关于数据质量、建模细节和数据泄露风险的问题。还有呼吁使用 AI 的研究论文使他们的方法和数据完全公开。然而在任何计算科学中实现完全可复现性都是一项挑战尤其是在 AI 领域。值得注意的是可复现性并不能保证结果的正确性它只能确保结果的自洽性。大型公司创建的高影响力 AI 模型通常不会立即可用研究人员可能由于担心公众审查或简单的知识产权问题而犹豫发布他们的代码。尽管存在这些挑战但推动基于 AI 的科学透明度和严格标准的努力仍在继续并且是至关重要的。尽管人工智能和机器学习有潜力彻底改变科学研究但有几个迹象表明存在滥用和不良实践这些实践是有害的。在大学课程中至少简要地涵盖这些观点并不会有什么坏处正如我在这里所做的那样而更专业的课程可以更深入地探讨这些问题。识别这些问题至关重要现在我们进入了寻求和实施解决方案的阶段。本质上这包括制定严格的标准并相应地对使用 AI 系统的研究人员进行足够的培训尤其是对开发 AI 系统的研究人员。相关文献为了撰写这篇文章我主要依据以下资源和其中的示例和链接影响生命科学研究中可复现性的六个因素及其处理方法AI 是否导致科学中的可复现性危机化学机器学习的最佳实践 - Nature Chemistry迈向量化独立可复现机器学习研究的一步www.lucianoabriata.com我会写关于我广泛兴趣范围内的一切自然、科学、技术、编程等。通过电子邮件订阅以获取我的新故事。要咨询小型工作*请查看我的**服务页面。您可以在此联系我。您还可以在此打赏我**.*

注销建设工程规划许可证在哪个网站哪里找网站建设的兼职

青岛崂山建设局网站wordpress 侧边悬浮块

大学生做社交网站网站开发论文

网站维护运营优化公司抖音小程序怎么入驻

网站备案网站负责人网站建设的初期目标

建站平台选择建议全国公路建设信用网站

找效果图去哪个网站国外直播

注销建设工程规划许可证在哪个网站哪里找网站建设的兼职

青岛崂山建设局网站wordpress 侧边悬浮块

大学生做社交网站网站开发 论文

网站维护运营优化公司抖音小程序怎么入驻

网站备案网站负责人网站建设的初期目标

建站平台选择建议全国公路建设信用网站

找效果图去哪个网站国外直播

大学生做社交网站网站开发论文