索尼专利分享智能眼镜基于言语头部运动分析的精神分裂症评估系统

2025-05-05 / Nweon / 0浏览

索尼专利分享智能眼镜基于言语头部运动分析的精神分裂症评估系统

（映维网Nweon 2025年05月05日）研究表明，在讲话时，人类会根据说话的节奏或韵律执行相应的头部动作。与言语相关的头部运动是精神分裂症和精神分裂症症状严重程度的一个强有力预测指标。

在一项特别的研究中，研究人员要求精神分裂症患者和健康对照者回答一个问题，同时录下他们说话的视频。研究人员通过视频处理确定了被试在讲话时头部运动，并发现精神分裂症者的平均头部运动显著减少。

对于精神分裂症，及时评估症状的变化可以对患者的生活质量产生重大影响。然而，由于目前系统的复杂性和侵入性，对患者进行定期监测十分困难。另外，精神分裂症患者可能难以监测和客观评估自己的症状，从而难以保持独立性和控制自己的病情。

随着智能眼镜和AR眼镜的发展和普及，这种搭载一系列传感组件的设备或可用于作为精神分裂症的常规检查手段。实际上，索尼已经提交了相关的专利申请。

图1示出了头显100和精神分裂症评估装置200。

声学传感器110捕获用户的语音，而运动传感器105捕获用户在说话时的头部运动。运动传感器105和声学传感器110向精神分裂症评估装置200提供运动数据和语音数据。

在一个实施例中，运动数据和/或语音数据可以是原始形式，即捕获用户的声音并简单地传递给精神分裂症评估装置200，不进行匿名处理。在其他实施例中，可以对原始语音进行加密或以其他方式匿名以保证用户的隐私。

所述精神分裂症评估装置200包括语音节奏提取算法205、头部运动提取算法210、精神分裂症评估算法220、评估度量数据库225和用户界面230。

语音节奏提取算法205从用户语音中提取用户语音的节奏或韵律。头部运动提取算法210从头部运动传感器105提供的头部运动数据中提取与语音具体相关的头部运动。头部运动提取算法210使用用户语音的节奏或韵律，从头部运动传感器105提供的头部运动中提取与该语音相关的头部运动数据。这种与语音相关的头部运动数据的提取是通过将用户语音的节奏或韵律与头部运动数据中的运动信号相匹配来实现。

换句话说，用户说话的韵律会产生一定的头部运动模式。这意味着从接收到的语音数据中提取用户的韵律节奏。这种由用户说话节奏引起的头部运动模式属于言语相关运动。应该注意的是，同时设想了任何适当的语音参数。换句话说，设想从语音数据和运动数据中预测语音相关运动的任何语音参数。语音参数的示例包括应用于单词的重音或语音语调。

精神分裂症评估算法220分析与从头部运动传感器105提供的头部运动中提取的语音相关的头部运动数据，以识别用户显示精神分裂症症状和/或精神分裂症症状的严重程度的可能性。

换句话说，这种可能性和/或严重性是基于与所接收语音数据的节奏相关联的运动数据来确定。

为了确定状态等级，将用户与语音相关的头部运动与基线指标和/或范围进行比较。指标和/或范围可以从精神分裂症诊断领域的现有或正在发展的研究中建立。

在一个实施例中，度量和/或范围可以来自先前收集的与特定用户的语音相关联头部运动数据，并且可以随时间追踪头部运动的百分比变化。在实施例中，根据与用户接收语音数据的节奏相关联的运动数据和没有精神分裂症的个体之间的比较确定状态等级。

在实施例中，量度可以包括例如头部运动的速率和/或头部运动的幅度。其他指标可能包括与语音相关的运动速度。指标可以存储在可由精神分裂症评估算法220访问的评估指标数据库225中，而在精神分裂症评估系统200中显示的指标可以位于云端的安全位置。

在实施例中，用户界面230可以向用户或医疗保健专业人员传达病情等级。

图3示出了相关的过程。

用户戴着头戴式设备100说话。声学传感器110检测用户的语音并捕获语音数据，而语音节奏提取算法205从中提取用户的语音节奏或韵律。在实施例中，声学传感器110可以将用户的语音（以未加密或加密形式）传递到精神分裂症评估装置200而不存储语音，或者可以在本地存储语音。

在实施例中，声学传感器110可以使用语音识别和语音识别技术自动检测用户何时已经开始说话。当然，用户可以手动向系统指示他们即将说话，而这可能触发声学传感器110开始捕获语音。

在声学传感器110并非“始终打开”的情况下，用户与头戴式设备100的交互可用于启动语音数据记录。

在实施例中，语音数据可以在用户和/或医生可接受的频率、持续时间或时间点收集。例如，用户可以根据自己的环境或偏好手动打开或关闭精神分裂症评估系统200和头戴式设备100。

在所有情况下，都希望确保检测到的语音是用户的语音。所以，语音识别技术可以应用于任何录制的语音样本，以验证只分析用户的语音。换句话说，可能需要一个简短的校准阶段，通过用户界面启用以收集初始语音样本，从而进一步验证语音数据。

语音节奏提取算法205处理由声学传感器110捕获的语音数据，以获得用户语音的节奏和/或韵律。用户说话的节奏和/或韵律是通过说话特征获得，例如对特定单词或短语的强调。

在检测到语音后，触发运动传感器105开始记录头部运动数据。头部运动数据与语音数据的记录同时记录。头部运动数据由一个或多个度量组成，例如用户头部的运动速度。

在实施例中，在第一相对头部位置和第二相对头部位置之间测量运动速度。这可以用毫米/秒来定义，其中相对头部位置可以通过将速度度量降低到零来表示。运动矢量可以通过用户头部在标准3D参照系的x、y和z平面上的位置来表示。最后，运动幅度是基于运动矢量参照系的变化幅度。

头部运动提取算法210使用节奏和/或韵律来识别与语音相关的头部运动数据中的运动。

为了做到这一点，将由语音节奏提取算法205产生的时间波形与由运动传感器110产生的头部运动波形进行比较，使得每个的时间和振幅特征可以匹配和覆盖。

与语音韵律/节奏相关的言语驱动的头部运动可以通过算法进行表征，其中用于强调口语内容或与听者互动的头部运动可以与非言语头部运动区分开来。

与语音相关的头部运动数据传递给精神分裂症评估算法220，并对其进行分析，以确定用户的状况评级。病情等级是用于定义与个体相关的精神分裂症参数的度量。换句话说，病情等级定义了一个人受精神分裂症影响的程度。

精神分裂症患者的头部运动速度比非精神分裂症患者要低得多。这可能与症状的严重程度有关。所以，在与语音相关的头部运动数据中检测到的头部运动速率的变化可用于确定用户的状态评级。

状态等级可以表示为与语音相关的头部运动数据从用户平均或可接受的值范围减少的百分比。例如，有研究表明，非精神分裂症患者的平均头部运动速率为2.50毫米/帧，而精神分裂症患者的平均头部运动速率为1.48毫米/帧。这相当于头部运动百分比减少41%，所以在实施例中相当于41%的状况评级。

请注意，由于分析是通过比较用户头部图像之间的相对运动来进行。

百分比值同时可能与有关症状严重程度增加的适当用户警告相关联，其中可根据医学建议和公认的医学论述。例如，考虑到精神分裂症的症状，如妄想、幻觉、思维和语言紊乱以及运动行为紊乱：

在20%的情况下，个体可能会经历轻微的思维和语言紊乱以及运动行为紊乱。

在40%的情况下，个体可能会经历严重的思维和语言紊乱以及运动行为紊乱，以及轻微的妄想和幻觉症状。

当然，出现精神分裂症症状的个体可能表现出一种或多种与精神分裂症相关的症状，其严重程度在任何给定的病情等级中都有所不同。例如，一个人可能会出现严重的思维混乱，但没有其他症状。这可能意味着他们的状况评级为15%。症状的数量和严重程度与状况评级之间的联系将由医生确定，并在接受测试的个体之间保持一致。

在实施例中，具有不同程度精神分裂症严重程度的个体的平均头部运动将存储在评估度量数据库225中。换句话说，具有低、中、高严重程度精神分裂症医学定义的个体群体的平均头部运动将被存储在评估指标数据库225中。这将提供在接受测试时归因于测试个体的精神分裂症严重程度。

所以，可以随时间跟踪用户与语音相关的平均头部运动数据，以识别用户状态评级的变化。例如，与言语相关的头部运动数据低于平均水平，可能表明确诊用户的症状恶化，或未确诊用户的症状出现。可以定期从用户处收集与语音相关的平均头部运动数据，并将其存储在评估度量数据库225中，从而可以进行可靠的测量。

例如，在正常使用期间，每天可收集任意长度的一次测量，提取其与语音相关的头部运动数据以及存储在评估度量数据库225中的相关运动度量（速度、幅度等）。

如果个人表现出更严重的症状，或者已经更换了药物，可应个人或其医疗监督的要求进行测量。这将减少突然改变剂量方案或药物对个人产生负面影响的风险。

各种运动指标的移动平均可以通过精神分裂症评估算法220作为新的测量值计算，并随时间收集。用户最近与语音值相关的头部运动数据可以与适当的移动平均线进行比较，以指示用户运动功能的变化。

当识别出与语音相关的头部运动数据的变化时，可以触发测量行为的预定变化，以便采取更多的测量来提高预测的准确性。

现有的研究表明，非精神分裂症患者的头部运动速度（x-y-z平面测量）为2.50毫米/帧，而确诊的精神分裂症患者的头部运动速度为1.48毫米/帧。显然，对这一诊断医学领域的研究正在取得进展，并且在实施例中，这种进一步的研究将纳入由精神分裂症评估算法220制定的评估标准。

在实施例中，在适当的情况下，存储在评估度量数据库225中的平均值可以按年龄、性别和其他相关人口统计信息进一步细分，从而可以将与语音相关的用户头部运动数据与匹配人口统计中个人的与语音相关的平均头部运动数据进行比较。这样可以做出更准确的诊断。

在这方面，可以将用户界面230配置为允许用户输入有关其自身的相关人口统计信息，例如年龄、性别、所服用的药物等。在实施例中，这用于识别与存储在评估度量数据库225中的语音比较集相关联的适当头部运动数据。

在实施例中，与语言相关的头部运动数据可以从其他头戴式设备100的用户收集，以表征与非精神分裂症个体的语言相关的头部运动数据。然后，数据可以以类似的方式使用与语音平均相关的全球或人口统计学细分的头部运动数据，以计算特定用户的状况评级。

在这方面，没有精神分裂症的用户可以同意分享他们与语言相关的头部运动数据，并用于更广泛的平均分类，以识别精神分裂症患者。

为了识别没有精神分裂症的用户，个人可以通过用户界面230确认他们没有从医疗专业人员那里得到精神分裂症的诊断，从而允许将他们的数据用于计算。同样，确诊的用户可能会分享信息，以允许与精神分裂症症状的言语相关的头部运动数据的阈值。

图4示出了相关的过程：

过程500从步骤510开始，其中用户在佩戴头戴式设备100时说话。

在520，声学传感器110捕获语音数据，运动传感器105在个体说话时同时捕获头部运动数据。

在530，语音节奏提取算法205分析由音频传感器110捕获的语音数据以提取用户的语音节奏或韵律。

在540，所提取的语音节奏或韵律用于确定运动传感器105捕获的与所提取语音节奏或韵律相对应的头部运动。这决定了由于说话而产生的头部运动。

在550，精神分裂症评估算法220从确定的由于语言引起的头部运动确定病情等级。然后将条件评级输出到用户界面。

相关专利：Sony Patent | A system, computer program and method

名为“A system, computer program and method”的索尼专利申请最初在2022年6月提交，并在日前由美国专利商标局公布。