데모 예약

축퇴 서열 검색으로 FTO 검색 강화

생물학적 서열은 생명공학 혁신의 기반을 형성하며 이러한 서열을 중심으로 수많은 발전이 이루어지고 있습니다. 그러나 생물학적 서열의 고유한 특성으로 인해 기존의 키워드 기반 정보 검색 방법에는 문제가 있으며 종종 중요한 정보와 잠재적 위험을 감독하게 됩니다.

특허 청구에 제시된 서열은 서열 자체를 설명할 뿐만 아니라 특정 수준의 상동성을 요구하는 광범위한 변형을 포함합니다. 결과적으로 연구자들은 포괄적인 결과를 보장하기 위해 미리 정의된 상동성 임계값을 사용하여 서열 데이터베이스를 탐색하기 위해 상동성 서열 정렬 알고리즘에 크게 의존합니다. 이 접근법은 현재 생물학적 서열 데이터베이스 검색에 널리 사용됩니다.

그럼에도 불구하고 시급한 질문이 남아 있습니다. 이러한 유사한 서열 검색이 모든 잠재적 표적 서열을 진정으로 식별할 수 있습니까? 이러한 방법은 효과적인 것으로 입증되었지만 모든 관련 시퀀스를 캡처할 수 있는 능력은 추가 조사를 보증합니다. 현재 검색 방법론의 한계를 탐구하고 발견되지 않은 잠재적인 표적 서열을 남기지 않는 향상된 접근 방식을 위해 노력하는 것이 중요합니다.  

특허의 특수 시퀀스  

유사한 시퀀스 검색을 키워드 기반 결과 집계와 결합하면 중요한 정보 및 FTO 문제를 간과할 위험이 크게 줄어듭니다.

그러나 특허의 서열은 많은 "특허 관련" 특성을 나타내기 때문에 다른 생물학적 데이터베이스에서 발견되는 것과 다릅니다. 특허 보호 범위를 확장하고 경쟁자에 대한 검색 장벽을 만들기 위해 특허 작성자는 종종 ""와 유사한 기술 방법을 사용합니다.마쿠쉬 구조”화학에서 사용됩니다. 부모 시퀀스의 위치 사이에 축퇴 기호, 와일드카드, 연산자 및 기타 정보를 도입하고 설명 문서를 통해 이러한 기호의 특정 매개 변수를 설명함으로써 "축퇴 시퀀스"라고 합니다.

아래 이미지는 특허 청구에 설명된 축퇴 시퀀스를 보여줍니다.  

특허 청구에 설명된 축퇴 서열.

축퇴 서열 자체는 어떠한 생물학적 의미도 갖지 않습니다. 그들은 전적으로 특허의 목적을 수행합니다. 그러나 상동성 범위에 대한 설명과 결합하면 이러한 접근 방식은 혁신적인 성과를 포괄적으로 보호할 뿐만 아니라 현재의 기존 서열 상동성 검색 방법에 대한 "결정적 타격"이 됩니다. 아래의 예를 살펴보겠습니다.

쿼리 시퀀스:

"EVGSYPAPSDACPSDYFYCDASGRSAGGGGTENLYFQGSGGS"  

대상 시퀀스:  

"EVGSYXXXXXXCXXXXXXCXXSGRSAGGGG TENLYFQGSG GS"  

BLAST 알고리즘에서 얻은 유사도 점수는 67%에 불과하지만 실제 유사도는 100%입니다.  

이는 기존의 서열 상동성 정렬 알고리즘 때문에 발생합니다. 퇴화 시퀀스와 관련된 시나리오를 고려하지 마십시오. 초기 개발 중에. 따라서 특별한 처리 없이 degenerate 시퀀스를 제외하면 기존 알고리즘을 사용할 때 두 가지 상황이 발생합니다.  

1) 시퀀스 검색 불가 

2) 유사성 점수가 임계값 미만으로 떨어지는 시퀀스의 제외.  

두 시나리오 모두 서열 검색자에게 중요한 문제를 제기하는데, 이는 특허 청구와 서열의 비교를 방해할 뿐만 아니라 중요한 서열 정보를 간과할 가능성을 증가시키기 때문입니다.  

Patsnap의 솔루션 

팻스냅스 생물학적 서열 데이터베이스(Bio) 통계는 글로벌 특허 문헌에서 이러한 특수 서열의 발생이 적지 않음을 보여준다. 전체 염기서열의 7.4%를 차지하는 약 7.12만 개의 염기서열과 1.31%를 차지하는 7.55만 개의 단백질 염기서열이 있다. 이것은 특수 기호의 존재로 인해 검색 결과에 영향을 미칠 수 있는 많은 수의 일반 시퀀스를 나타내며 FTO 분석에 상당한 위험을 초래합니다.  

따라서 이러한 중요한 시퀀스를 간과할 위험을 완화하기 위해 Patsnap의 알고리즘 엔지니어링 팀은 사내 NLP, CV, 엔티티 인식 및 상호 참조 해결 기술을 사용하여 딥 러닝 모델을 개발했습니다..

이 모델은 퇴화 서열과 서열 목록 및 전체 텍스트 특허의 대체를 식별하고 파싱하도록 설계되었으며, Bio Professional 패키지의 일부로 퇴화 서열 검색 데이터베이스를 구축했습니다.

특수 서열 정렬 알고리즘을 사용하는 이 데이터베이스는 이러한 서열을 검색할 수 있을 뿐만 아니라 실제 유사성 점수도 제공합니다. 따라서 degenerate sequence 데이터베이스 내에서 검색을 수행함으로써 실수로 중요한 정보를 간과하는 위험을 효과적으로 완화할 수 있습니다. 운영의 자유 (FTO) 및 신규성 검색. 

Patsnap의 알고리즘 엔지니어링 팀은 사내 NLP, CV, 엔터티 인식 및 상호 참조 해결 기술을 사용하여 딥 러닝 모델을 개발했습니다.

수백억에 달할 수 있는 퇴화 서열의 잠재적 변형 규모를 고려할 때 기존 서열 정렬 알고리즘은 실시간 검색 요구를 충족하지 못합니다. Patsnap은 검색 프로세스 중에 퇴화 시퀀스에 대한 대체 정보를 동적으로 로드하는 심층적으로 맞춤화된 시퀀스 정렬 알고리즘을 사용하여 합리적인 시간 프레임 내에서 정확한 검색을 보장함으로써 이 문제를 해결합니다.

스캐닝 단계에서 Patsnap은 휴리스틱 검색을 위한 시드 단어 테이블을 구성하는 압축 알고리즘을 도입하여 불필요한 비교를 크게 줄이고 검색 효율성을 향상시킵니다. 쿼리 시퀀스를 대상 시퀀스와 정렬할 때 Patsnap의 독점 알고리즘은 퇴화 대체 정보를 통합하여 보다 정확한 정렬 및 쿼리 결과는 물론 쿼리 시퀀스 및 대상 시퀀스의 다양한 변형에 대해 보다 직관적이고 시각적으로 매력적인 정렬 결과를 제공합니다. 

지금 Degenerate Sequence Search를 경험해보세요. 

2023년 XNUMX월 Patsnap의 생물학적 서열 바이오 데이터베이스는 강력한 퇴화 서열 검색 기능을 도입하여 특허 영역에서 패러다임 전환을 일으켰습니다. 이 파괴적인 발전은 연구원들에게 퇴화 시퀀스의 광범위한 컬렉션을 제공하는 엄청나게 강력한 도구를 제공하여 사용자가 검색에서 가장 정확하고 관련성 있는 정보를 쉽게 얻을 수 있도록 합니다.  

데모를 예약하거나 자세한 내용을 알아보려면 다음을 방문하십시오. patsnap.com/solutions/bio.

팻스냅 소개: 2007년에 설립된 Patsnap은 세계 최고의 AI 기반 혁신 인텔리전스 플랫폼을 제공하는 회사입니다. Patsnap은 혁신 프로세스에서 더 나은 결정을 내리는 데 도움이 되는 연결되고 사용하기 쉬운 플랫폼을 글로벌 기업에 제공합니다. 고객은 농업 및 화학, 소비재, 식품 및 음료, 생명 과학, 자동차, 석유 및 가스, 전문 서비스, 항공 및 항공 우주, 교육을 포함한 여러 산업 분야의 혁신가입니다.    

미디어 담당자 :   

안타샤 더빈  

이메일 : [이메일 보호]  

  

추천 콘텐츠