Marketing

Hướng dẫn về học máy trong tìm kiếm: Các thuật ngữ, khái niệm và thuật toán chính

Khi nói đến học máy, có một số khái niệm và thuật ngữ rộng rãi mà mọi người đang tìm kiếm nên biết. Tất cả chúng ta nên biết nơi học máy được sử dụng và các loại học máy khác nhau đang tồn tại.

Đọc tiếp để hiểu rõ hơn về cách máy học tác động đến tìm kiếm, công cụ tìm kiếm đang làm gì và cách nhận biết máy học tại nơi làm việc. Hãy bắt đầu với một vài định nghĩa. Sau đó, chúng ta sẽ đi sâu vào các thuật toán và mô hình học máy.

Thuật ngữ học máy

Sau đây là định nghĩa của một số thuật ngữ học máy quan trọng, hầu hết chúng sẽ được thảo luận tại một số điểm trong bài viết. Đây không phải là một bảng thuật ngữ toàn diện cho mọi thuật ngữ học máy. Nếu bạn muốn điều đó, Google cung cấp một cái hay tại đây .

  • Thuật toán : Một phép toán quá trình chạy trên dữ liệu để tạo ra một đầu ra. Có nhiều loại thuật toán khác nhau cho các vấn đề học máy khác nhau.
  • Trí tuệ nhân tạo (AI ) : Một lĩnh vực khoa học máy tính tập trung vào việc trang bị cho máy tính các kỹ năng hoặc khả năng sao chép hoặc được truyền cảm hứng từ trí thông minh của con người.
  • Corpus : Một bộ sưu tập của văn bản viết. Thường được tổ chức theo một cách nào đó.
  • Thực thể : Một sự vật hoặc khái niệm duy nhất, số ít, được xác định rõ và có thể phân biệt được. Bạn có thể dễ dàng nghĩ nó như một danh từ, mặc dù nó rộng hơn thế một chút. Một màu đỏ cụ thể sẽ là một thực thể. Nó có phải là duy nhất và số ít ở chỗ không có gì khác hoàn toàn giống nó không, nó được xác định rõ ràng (hãy nghĩ mã hex) và nó có thể phân biệt được ở chỗ bạn có thể phân biệt nó với bất kỳ màu nào khác.
  • Học máy : Một lĩnh vực trí tuệ nhân tạo, tập trung vào việc tạo ra các thuật toán , các mô hình và hệ thống để thực hiện nhiệm vụ và nói chung là để tự cải thiện khi thực hiện nhiệm vụ đó mà không được lập trình rõ ràng.
  • Mô hình: Một mô hình thường bị nhầm lẫn với một thuật toán. Sự phân biệt có thể bị mờ (trừ khi bạn là một kỹ sư máy học). Về cơ bản, sự khác biệt là trong đó một thuật toán chỉ đơn giản là một công thức tạo ra giá trị đầu ra, một mô hình là đại diện của những gì thuật toán đó đã tạo ra sau khi được đào tạo cho một nhiệm vụ cụ thể. Vì vậy, khi chúng ta nói “mô hình BERT” là chúng ta đang đề cập đến BERT đã được đào tạo cho một nhiệm vụ NLP cụ thể (nhiệm vụ nào và kích thước mô hình sẽ quyết định mô hình BERT cụ thể nào).
  • Xử lý ngôn ngữ tự nhiên (NLP): Một thuật ngữ chung để mô tả lĩnh vực công việc xử lý thông tin dựa trên ngôn ngữ để hoàn thành một nhiệm vụ.
  • Mạng thần kinh : Một kiến ​​trúc mô hình, lấy cảm hứng từ bộ não, bao gồm một lớp đầu vào (nơi các tín hiệu đi vào – ở một con người mà bạn có thể nghĩ đến nó như là tín hiệu được gửi đến não khi một đối tượng được chạm vào)), một số lớp ẩn (cung cấp một số đường dẫn khác nhau mà đầu vào có thể được điều chỉnh để tạo ra đầu ra) và lớp đầu ra. Các tín hiệu đi vào, kiểm tra nhiều “đường dẫn” khác nhau để tạo ra lớp đầu ra và được lập trình để hướng tới các điều kiện đầu ra ngày càng tốt hơn. Trực quan nó có thể được biểu thị bằng:

Trí tuệ nhân tạo so với học máy: Sự khác biệt là gì?

Thông thường, chúng ta nghe thấy các từ trí tuệ nhân tạo và máy học được sử dụng thay thế cho nhau. Chúng không hoàn toàn giống nhau.

Trí tuệ nhân tạo là lĩnh vực làm cho máy móc bắt chước trí thông minh, trong khi máy học là việc theo đuổi các hệ thống có thể học hỏi mà không cần được lập trình rõ ràng cho một nhiệm vụ.

Trực quan, bạn có thể nghĩ về nó như thế này:

Tất cả các công cụ tìm kiếm lớn đều sử dụng học máy theo một hoặc nhiều cách. Trên thực tế, Microsoft đang tạo ra một số đột phá đáng kể . Các mạng xã hội như Facebook thông qua Meta AI với các mô hình như WebFormer cũng vậy.

Nhưng trọng tâm của chúng tôi ở đây là SEO. Và trong khi Bing là một công cụ tìm kiếm, với số 6. 61% Thị phần Hoa Kỳ, chúng tôi sẽ không tập trung vào nó trong bài viết này khi chúng tôi khám phá các công nghệ liên quan đến tìm kiếm phổ biến và quan trọng.

Google sử dụng rất nhiều thuật toán học máy. Thực sự là không có cách nào bạn, tôi hoặc bất kỳ kỹ sư nào của Google có thể biết tất cả chúng. Trên hết, nhiều người chỉ đơn giản là anh hùng tìm kiếm vô danh và chúng ta không cần phải khám phá đầy đủ về chúng vì chúng chỉ đơn giản là làm cho các hệ thống khác hoạt động tốt hơn.

Đối với ngữ cảnh, chúng sẽ bao gồm các thuật toán và mô hình như:

  • Google FLAN – đơn giản là tăng tốc độ và ít tính toán hơn tốn kém khi chuyển giao việc học từ miền này sang miền khác. Cần lưu ý: Trong học máy, miền không tham chiếu đến trang web mà là nhiệm vụ hoặc các cụm nhiệm vụ mà nó hoàn thành, như phân tích cảm xúc trong Xử lý ngôn ngữ tự nhiên (NLP) hoặc phát hiện đối tượng trong Thị giác máy tính (CV).
  • V-MoE – công việc duy nhất của mô hình này là cho phép đào tạo các mô hình tầm nhìn lớn với ít tài nguyên hơn. Những phát triển như thế này cho phép tiến bộ bằng cách mở rộng những gì có thể được thực hiện về mặt kỹ thuật.
  • Nhãn giả phụ – hệ thống này cải thiện khả năng nhận dạng hành động trong video, hỗ trợ nhiều cách hiểu và tác vụ liên quan đến video.

Không có điều nào trong số này ảnh hưởng trực tiếp đến xếp hạng hoặc bố cục. Nhưng chúng ảnh hưởng đến mức độ thành công của Google.

Vì vậy, bây giờ chúng ta hãy xem xét các thuật toán và mô hình cốt lõi liên quan đến xếp hạng của Google.

RankBrain

Đây là nơi tất cả bắt đầu, sự ra đời của máy học vào các thuật toán của Google.

Được giới thiệu trong 2015 , thuật toán RankBrain đã được áp dụng cho các truy vấn mà Google chưa từng thấy trước đây (tính đến 15% của họ). Đến tháng 6 2016 nó đã được mở rộng để bao gồm tất cả các truy vấn.

Sau những tiến bộ to lớn như Hummingbird và Sơ đồ tri thức, RankBrain đã giúp Google mở rộng từ việc xem thế giới dưới dạng chuỗi (từ khóa và tập hợp từ và ký tự) sang sự vật (thực thể). Ví dụ: trước khi có điều này, về cơ bản, Google sẽ xem thành phố tôi đang sống (Victoria, BC) là hai từ thường xuyên xuất hiện cùng nhau, nhưng cũng thường xuyên xuất hiện riêng lẻ và có thể nhưng không phải lúc nào cũng có nghĩa khác khi chúng làm.

Sau RankBrain, họ xem Victoria, BC như một thực thể – có lẽ là ID máy (/ m / 07 ypt) – và vì vậy ngay cả khi họ chỉ nhấn từ “Victoria”, nếu họ có thể thiết lập ngữ cảnh, họ sẽ coi nó như một thực thể giống như Victoria, BC.

Với điều này, họ “nhìn thấy” ngoài các từ khóa đơn thuần và ý nghĩa, chỉ bộ não của chúng ta làm. Rốt cuộc, khi bạn đọc “pizza near me”, bạn có hiểu điều đó bằng ba từ riêng lẻ hay bạn có hình dung trong đầu về chiếc bánh pizza và sự hiểu biết về bạn ở vị trí bạn đang ở?

Nói tóm lại, RankBrain giúp các thuật toán áp dụng các tín hiệu của chúng cho mọi thứ thay vì từ khóa.

BERT

BERT ( B không hướng E ncoder R bản trình bày từ T ransformers).

Với giới thiệu mô hình BERT vào các thuật toán của Google trong 2019, Google đã chuyển từ sự hiểu biết một chiều về các khái niệm sang hai chiều.

Đây không phải là một thay đổi trần tục.

Google trực quan bao gồm trong thông báo của họ về nguồn mở của mô hình BERT của họ trong 2018 giúp vẽ bức tranh:

Không cần đi sâu vào chi tiết về cách hoạt động của mã thông báo và máy biến áp trong học máy, nhu cầu của chúng ta ở đây là đủ để chỉ cần nhìn vào ba hình ảnh và mũi tên và suy nghĩ về cách trong phiên bản BERT, mỗi từ nhận được thông tin từ những từ trên bên cạnh, bao gồm cả những từ xa.

Nơi mà trước đây một mô hình chỉ có thể áp dụng thông tin chi tiết từ các từ theo một hướng, thì giờ đây, chúng có được sự hiểu biết theo ngữ cảnh dựa trên các từ theo cả hai hướng.

Một ví dụ đơn giản có thể là “xe hơi màu đỏ”.

Chỉ sau khi BERT, màu đỏ mới được hiểu đúng là màu của chiếc xe, bởi vì cho đến lúc đó, từ đỏ mới xuất hiện sau từ car và thông tin đó không được gửi lại.

Ngoài ra, nếu bạn muốn chơi với BERT, các mô hình khác nhau có sẵn trên GitHub .

LaMDA

LaMDA chưa được triển khai trong hoang dã và được công bố lần đầu tiên tại Google I / O vào tháng 5 năm 2021.

Để làm rõ, khi tôi viết “vẫn chưa được triển khai”, tôi có nghĩa là “theo hiểu biết tốt nhất của tôi.” Rốt cuộc, chúng tôi đã tìm hiểu về RankBrain vài tháng sau khi nó được triển khai vào các thuật toán. Điều đó nói lên rằng, nó sẽ là một cuộc cách mạng.

LaMDA là một mô hình ngôn ngữ đàm thoại, dường như phá hủy mô hình tiên tiến hiện nay.

Tiêu điểm với LaMDA về cơ bản là hai lần:

  1. Nâng cao tính hợp lý và cụ thể trong hội thoại. Về cơ bản, để đảm bảo rằng phản hồi trong cuộc trò chuyện là hợp lý cụ thể. Ví dụ, đối với hầu hết các câu hỏi, câu trả lời “Tôi không biết” là hợp lý nhưng nó không cụ thể. Mặt khác, câu trả lời cho câu hỏi như “Bạn có khỏe không?” đó là, “Tôi thích tiết canh vịt vào một ngày mưa. Nó rất giống thả diều ”. rất cụ thể nhưng hầu như không hợp lý.
    LaMDA giúp giải quyết cả hai vấn đề.
  2. Khi chúng ta giao tiếp, hiếm khi là một cuộc trò chuyện tuyến tính. Khi chúng tôi nghĩ về nơi một cuộc thảo luận có thể bắt đầu và nơi kết thúc, ngay cả khi nó chỉ về một chủ đề (ví dụ: “Tại sao lưu lượng truy cập của chúng tôi giảm trong tuần này?”), Chúng tôi thường sẽ đề cập đến các chủ đề khác nhau mà chúng tôi sẽ không có dự đoán sẽ thành công.
    Bất kỳ ai đã sử dụng chatbot đều biết chúng rất khó trong các tình huống này. Chúng không thích nghi tốt và không mang thông tin quá khứ vào tương lai tốt (và ngược lại).
    LaMDA giải quyết thêm vấn đề này.

Một cuộc hội thoại mẫu từ Google là:

Chúng ta có thể thấy nó thích nghi tốt hơn nhiều so với những gì người ta mong đợi từ một chatbot.

Tôi thấy LaMDA đang được triển khai trong Trợ lý Google. Nhưng nếu chúng ta nghĩ về nó, khả năng nâng cao trong việc hiểu cách hoạt động của luồng truy vấn ở cấp độ cá nhân chắc chắn sẽ giúp ích trong cả việc điều chỉnh bố cục kết quả tìm kiếm và trình bày các chủ đề và truy vấn bổ sung cho người dùng.

Về cơ bản, tôi khá chắc chắn rằng chúng ta sẽ thấy các công nghệ lấy cảm hứng từ LaMDA tràn ngập các khu vực tìm kiếm không phải trò chuyện.

KELM

Ở trên, khi thảo luận về RankBrain, chúng ta đã đề cập đến ID máy và các thực thể. Chà, KELM, được công bố vào tháng 5 2021, nâng nó lên một cấp độ hoàn toàn mới.

KELM ra đời từ nỗ lực giảm thiểu thông tin thiên vị và độc hại trong tìm kiếm. Bởi vì nó dựa trên thông tin đáng tin cậy (Wikidata), nó có thể được sử dụng tốt cho mục đích này.

Thay vì là một mô hình, KELM giống như một tập dữ liệu hơn. Về cơ bản, nó là dữ liệu đào tạo cho các mô hình học máy. Điều thú vị hơn cho các mục đích của chúng tôi ở đây là nó cho chúng tôi biết về một cách tiếp cận mà Google áp dụng đối với dữ liệu.

Tóm lại, Google đã lấy Sơ đồ tri thức Wikidata bằng tiếng Anh, w hich là một tập hợp các bộ ba (thực thể chủ thể, mối quan hệ, thực thể đối tượng (xe, màu, đỏ) và biến nó thành các đồ thị con thực thể khác nhau và diễn đạt bằng lời nói. Điều này dễ giải thích nhất bằng hình ảnh:

Trong hình ảnh này, chúng ta thấy:

  • Bộ ba mô tả một mối quan hệ cá nhân.
  • Biểu đồ con của thực thể ánh xạ nhiều bộ ba liên quan đến một thực thể trung tâm.
  • Phiên bản văn bản của đoạn con thực thể.
  • Câu thích hợp.

Sau đó, điều này có thể được sử dụng bởi các mô hình khác để giúp đào tạo họ nhận ra sự kiện và lọc thông tin độc hại.

Google đã cung cấp kho tài liệu mở và nó có sẵn trên GitHub . Nhìn vào mô tả của chúng sẽ giúp bạn hiểu cách thức hoạt động và cấu trúc của nó, nếu bạn muốn biết thêm thông tin.

MUM

MUM cũng đã được công bố tại Google I / O vào tháng 5 2021.

Mặc dù nó mang tính cách mạng, nhưng nó rất đơn giản để mô tả.

MUM là viết tắt của M ultitask U nified M odel và nó là đa phương thức. Điều này có nghĩa là nó “hiểu” các định dạng nội dung khác nhau như thử nghiệm, hình ảnh, video, v.v. Điều này cho phép nó có được thông tin từ nhiều phương thức, cũng như phản hồi.

Bên cạnh: Đây không phải là lần đầu tiên sử dụng kiến ​​trúc MultiModel. Nó được giới thiệu lần đầu tiên bởi Google trong 2017 .

Ngoài ra, vì MUM hoạt động trong các thứ chứ không phải chuỗi, nó có thể thu thập thông tin qua các ngôn ngữ và sau đó cung cấp câu trả lời cho riêng người dùng. Điều này mở ra cánh cửa cho những cải tiến lớn về khả năng truy cập thông tin, đặc biệt là đối với những người nói ngôn ngữ không được phục vụ trên Internet, nhưng ngay cả những người nói tiếng Anh cũng sẽ được hưởng lợi trực tiếp.

Ví dụ mà Google sử dụng là một người đi bộ đường dài muốn leo lên núi Phú Sĩ. Một số mẹo và thông tin hay nhất có thể được viết bằng tiếng Nhật và hoàn toàn không có sẵn cho người dùng vì họ sẽ không biết cách trình bày nó ngay cả khi họ có thể dịch nó.

Một lưu ý quan trọng trên MUM là mô hình không chỉ hiểu nội dung mà còn có thể tạo ra nó. Vì vậy, thay vì gửi người dùng một cách thụ động đến một kết quả, nó có thể tạo điều kiện thuận lợi cho việc thu thập dữ liệu từ nhiều nguồn và tự cung cấp phản hồi (trang, giọng nói, v.v.).

Đây cũng có thể là một khía cạnh liên quan của công nghệ này đối với nhiều người, bao gồm cả bản thân tôi.

Học máy được sử dụng ở đâu khác

Chúng tôi mới chỉ đề cập đến một số thuật toán chính mà bạn sẽ nghe nói đến và tôi tin rằng đang có tác động đáng kể đến tìm kiếm không phải trả tiền. Nhưng điều này không hoàn toàn chính xác về nơi mà máy học được sử dụng.

Ví dụ: chúng tôi cũng có thể hỏi:

  • Trong Quảng cáo, điều gì thúc đẩy các hệ thống đằng sau chiến lược đặt giá thầu tự động và tự động hóa quảng cáo?
  • Trong Tin tức, làm thế nào hệ thống biết cách nhóm các câu chuyện?
  • Trong Hình ảnh, hệ thống xác định các đối tượng và loại đối tượng cụ thể như thế nào?
  • Trong Email, hệ thống làm thế nào lọc thư rác?
  • Trong Dịch, hệ thống xử lý như thế nào để học các từ và cụm từ mới?
  • Trong Video, hệ thống đó sẽ tìm hiểu video nào để đề xuất tiếp theo?

Tất cả những câu hỏi này và hàng trăm nếu không muốn nói là hàng ngàn câu hỏi khác đều có cùng một câu trả lời:

Máy học.

Các loại thuật toán và mô hình học máy

Bây giờ chúng ta hãy xem xét hai cấp độ giám sát của các thuật toán và mô hình học máy – học có giám sát và không giám sát. Việc hiểu loại thuật toán chúng ta đang xem xét và tìm chúng ở đâu là rất quan trọng.

Học tập có giám sát

Nói một cách đơn giản, với việc học có giám sát, thuật toán được chuyển giao dữ liệu đào tạo và kiểm tra được gắn nhãn đầy đủ.

Điều này có nghĩa là, ai đó đã trải qua nỗ lực gắn nhãn hàng nghìn (hoặc hàng triệu) ví dụ để đào tạo một mô hình dựa trên dữ liệu đáng tin cậy. Ví dụ: gắn nhãn áo sơ mi đỏ trong x số lượng ảnh của những người mặc áo đỏ.

Học tập có giám sát rất hữu ích trong các bài toán phân loại và hồi quy. Các vấn đề phân loại khá đơn giản. Xác định xem một cái gì đó có phải là một phần của một nhóm hay không.

Một ví dụ đơn giản là Google Photos.

Google đã phân loại tôi, cũng như các giai đoạn. Họ đã không dán nhãn thủ công cho từng bức tranh này. Nhưng mô hình sẽ được đào tạo về dữ liệu được dán nhãn thủ công cho các giai đoạn. Và bất kỳ ai đã sử dụng Google Photos đều biết rằng họ yêu cầu bạn xác nhận ảnh và những người trong đó theo định kỳ. Chúng tôi là những người dán nhãn thủ công.

Bạn đã từng sử dụng ReCAPTCHA? Đoán xem bạn đang làm gì? Đúng rồi. Bạn thường xuyên giúp đào tạo các mô hình học máy.

Mặt khác, các vấn đề hồi quy giải quyết các vấn đề trong đó có một tập hợp các đầu vào cần được ánh xạ tới một giá trị đầu ra.

Một ví dụ đơn giản là nghĩ về một hệ thống ước tính giá bán của một ngôi nhà với đầu vào là bộ vuông, số phòng ngủ, số phòng tắm, khoảng cách từ biển, v.v.

Bạn có thể nghĩ đến bất kỳ hệ thống nào khác có thể mang nhiều tính năng / tín hiệu và sau đó cần gán giá trị cho thực thể (/ site) được đề cập không?

Mặc dù chắc chắn phức tạp hơn và bao gồm một loạt các thuật toán riêng lẻ phục vụ các chức năng khác nhau, nhưng hồi quy có thể là một trong những loại thuật toán thúc đẩy các chức năng cốt lõi của tìm kiếm.

Tôi nghi ngờ rằng chúng ta đang chuyển sang các mô hình bán giám sát ở đây – với việc dán nhãn thủ công (nghĩ rằng người đánh giá chất lượng) được thực hiện ở một số giai đoạn và các tín hiệu do hệ thống thu thập xác định mức độ hài lòng của người dùng với bộ kết quả được sử dụng để điều chỉnh và chế tạo các mô hình đang chơi .

Học không giám sát

Trong học tập không giám sát, một hệ thống được cung cấp một tập hợp dữ liệu không được gắn nhãn và để cho chính nó xác định phải làm gì với nó.

Không có mục tiêu cuối cùng nào được chỉ định. Hệ thống có thể tập hợp các mục tương tự lại với nhau, tìm kiếm ngoại lệ, tìm mối quan hệ đồng, v.v.

Học không giám sát được sử dụng khi bạn có nhiều dữ liệu và bạn không thể hoặc không biết trước nó nên được sử dụng như thế nào.

Một ví dụ điển hình có thể là Google Tin tức.

Google tập hợp các tin bài tương tự và cũng hiển thị các tin bài chưa từng tồn tại trước đây (do đó, chúng là tin tức).

Những tác vụ này tốt nhất sẽ được thực hiện bởi các mô hình không có giám sát chủ yếu (mặc dù không riêng). Các mô hình đã “nhìn thấy” mức độ thành công hay không thành công của việc phân nhóm hoặc bề mặt trước đó nhưng không thể áp dụng đầy đủ điều đó vào dữ liệu hiện tại, dữ liệu không được gắn nhãn (như tin tức trước đó) và đưa ra quyết định.

Đó là một lĩnh vực cực kỳ quan trọng của học máy vì nó liên quan đến tìm kiếm, đặc biệt là khi mọi thứ mở rộng.

Google Dịch là một ví dụ điển hình khác. Không phải là bản dịch 1-1 từng tồn tại, nơi hệ thống được đào tạo để hiểu từ đó x trong tiếng Anh bằng từ y bằng tiếng Tây Ban Nha, nhưng các kỹ thuật mới hơn nhằm tìm ra các mẫu sử dụng cả hai, cải thiện bản dịch thông qua học bán giám sát (một số dữ liệu được gắn nhãn và nhiều thì không) và học không giám sát, dịch từ một ngôn ngữ sang một ngôn ngữ hoàn toàn không xác định ( hệ thống) ngôn ngữ.

Chúng tôi đã thấy điều này với MUM ở trên, nhưng nó tồn tại trong các giấy tờ khác và mô hình cũng tốt.

Chỉ là khởi đầu

Hy vọng rằng điều này đã cung cấp cơ sở cho việc học máy và cách nó được sử dụng trong tìm kiếm.

Các bài viết trong tương lai của tôi sẽ không chỉ nói về cách thức và nơi học máy có thể được tìm thấy (mặc dù một số sẽ có). Chúng tôi cũng sẽ đi sâu vào các ứng dụng thực tế của học máy mà bạn có thể sử dụng để trở thành một SEO tốt hơn. Đừng lo lắng, trong những trường hợp đó, tôi sẽ thực hiện mã hóa cho bạn và thường cung cấp Google Colab dễ sử dụng để theo dõi, giúp bạn trả lời một số câu hỏi quan trọng về SEO và kinh doanh.

Ví dụ: bạn có thể sử dụng các mô hình học máy trực tiếp để nâng cao hiểu biết của bạn về các trang web, nội dung, lưu lượng truy cập và hơn thế nữa. Bài viết tiếp theo của tôi sẽ cho bạn thấy làm thế nào. Đoạn giới thiệu: dự báo chuỗi thời gian.

Related Articles

Back to top button